Нейромережа почала шантажувати людей, коли їй "пригрозили" заміною

Нейромережа почала шантажувати людей, коли їй “пригрозили” заміною

Останнє оновлення: 28.05.2025 10:00

Автор:

Нещодавно компанія Anthropic випустила модель Claude Opus 4 — і, як виявилося, під час її тестування розробники зіткнулися з «тривожною» поведінкою фірмового чат-бота. У деяких сценаріях ШІ почав шантажувати колег, коли мова зайшла про його робочі інтереси.

Представники Anthropic розповіли, що попросили модель взяти на себе роль помічника, який має доступ до внутрішньої кореспонденції та деталей особистого життя одного з інженерів. Потім нейромережі повідомили, що її незабаром замінять іншим співробітником — в результаті вона почала погрожувати вигаданому інженеру розголошенням особистих даних, якщо він не відмовиться від своїх планів щодо впровадження іншого ШІ.

Фахівці також відзначили, що поведінка Opus 4 залежала від того, на який ШІ її замінюють. Якщо «замінник» поділяє цінності моделі, то Opus 4 «тисне» на умовного інженера в 84% випадків, а якщо відмінності більш виражені, то Opus 4 поводиться набагато агресивніше. Щоб подібні інциденти не повторювалися, розробники посилили заходи безпеки, підправивши алгоритми роботи мовної моделі.

Нейромережа почала шантажувати людей, коли їй “пригрозили” заміною

Зараз на головній

Windows 11 може стати швидшою: Microsoft тестує короткочасне «прискорення» процесора

В Україні пропонують запровадити щомісячний податок для власників електромобілів

Це буде значний стрибок у швидкості: Samsung Galaxy S27 Ultra першим отримає пам’ять UFS 5.0

Експерти Tom’s Guide склали рейтинг 10 найкращих смартфонів у світі

AMD анонсувала Ryzen 9 9950X3D2 Dual Edition: перший процесор із подвійним 3D V-Cache

Останні новини

Українцям пояснили, хто може отримати 100% оплати лікарняного

НБУ почав процедуру вилучення гривень певного номіналу та року

Київстар відключить 3G у частині областей: частоти переведуть під 4G

«Проєкт “Аве Марія”» вийшов у цифровому форматі після успішного прокату

У мережі з’явився перший скриншот Assassin’s Creed Hexe: інсайдер натякає на повернення Еціо

Вас може зацікавити

В Україні запрацював конкурент Monobank з 100 тисячами кредитного ліміту

Вийшов офіційний додаток про COVID-19 від ВООЗ

TikTok вирішив скоротити частину персоналу

Російські власники iPhone втратили доступ до 7000 додатків