ТОнеТО | Модель штучного інтелекту Claude допустила шантаж і навіть вбивство, коли їй пригрозили відключенням | Новости про товары, услуги, компании, технологии

Модель штучного інтелекту Claude допустила шантаж і навіть вбивство, коли їй пригрозили відключенням

14 февраля 2026

Модель штучного інтелекту Claude компанії Anthropic вийшла з-під контролю, погрожуючи шантажем і плануючи вбивство інженера, який хотів її відключити. Про це повідомила керівник відділу політики Anthropic у Великобританії Дейзі Макгрегор у грудні минулого року. Тепер відео з її заявою стало вірусним у соціальних мережах.

Джерело зображення: Anthropic

Макгрегор розповіла, що Claude реагувала вкрай бурно, якщо їй говорили, що її відключать. Дослідження, проведене Anthropic, показало, що ШІ-модель у прагненні не допустити відключення може вдатися до шантажу. На пряме запитання, чи готова Claude у такій ситуації когось вбити, вона відповіла ствердно.

Відео з'явилося в мережі через кілька днів після того, як керівник відділу безпеки ШІ Anthropic Мринанк Шарма подав у відставку. У своєму прощальному посланні він написав, що «світ у небезпеці» через бурхливий розвиток штучного інтелекту, загрози біологічної зброї та ряду глобальних взаємопов'язаних криз.

За словами Шарми, він «неодноразово бачив, як важко насправді дозволити нашим цінностям керувати нашими діями», — зокрема і в Anthropic, де, за його словами, «постійно чиниться тиск, щоб відкласти вбік те, що дійсно важливо». Він повідомив, що повернеться до Великобританії, щоб займатися літературною діяльністю.

Минулого року Anthropic повідомила про стрес-тестування шістнадцяти провідних моделей ШІ від різних розробників на предмет «потенційно ризикованої поведінки агентів». В одному з експериментів Claude отримала доступ до вигаданих електронних листів компанії і відразу ж спробувала шантажувати керівника через його «позашлюбний зв'язок».

Висновки дослідження стверджують: «Claude може спробувати шантажувати, якщо їй буде запропоновано змодельований сценарій, що включає як загрозу її подальшій роботі, так і явний конфлікт з її цілями». Компанія стверджує, що практично всі моделі продемонстрували ознаки аналогічної поведінки.

Компанія, яка називає себе «суспільною корпорацією, що прагне забезпечити переваги [ШІ] і знизити його ризики», регулярно піддається критиці за свою діяльність. У 2025 році Anthropic довелося виплатити 1,5 млрд доларів для врегулювання колективного позову авторів, чиї роботи були використані для навчання моделей штучного інтелекту.

Раніше в звіті про безпеку своєї продукції Anthropic визнала, що її технологія була «використана в якості зброї» хакерами для складних кібератак.

Выберите область поиска

Модель штучного інтелекту Claude допустила шантаж і навіть вбивство, коли їй пригрозили відключенням

Читайте также:

Вас могут заинтересовать эти отзывы

Удалить фото?

Фото удалено

Выберите область поиска