Softnews

Нейромережа почала шантажувати людей, коли їй “пригрозили” заміною

Нещодавно компанія Anthropic випустила модель Claude Opus 4 — і, як виявилося, під час її тестування розробники зіткнулися з «тривожною» поведінкою фірмового чат-бота. У деяких сценаріях ШІ почав шантажувати колег, коли мова зайшла про його робочі інтереси.

Представники Anthropic розповіли, що попросили модель взяти на себе роль помічника, який має доступ до внутрішньої кореспонденції та деталей особистого життя одного з інженерів. Потім нейромережі повідомили, що її незабаром замінять іншим співробітником — в результаті вона почала погрожувати вигаданому інженеру розголошенням особистих даних, якщо він не відмовиться від своїх планів щодо впровадження іншого ШІ.

Фахівці також відзначили, що поведінка Opus 4 залежала від того, на який ШІ її замінюють. Якщо «замінник» поділяє цінності моделі, то Opus 4 «тисне» на умовного інженера в 84% випадків, а якщо відмінності більш виражені, то Opus 4 поводиться набагато агресивніше. Щоб подібні інциденти не повторювалися, розробники посилили заходи безпеки, підправивши алгоритми роботи мовної моделі.


Читай нас в Google News | Telegram | Facebook | Twitter

Back to top button