ТОнеТО | Anthropic пов'язала схильність Claude до шантажу та шахрайства з тиском і нездійсненними завданнями | Новости про товары, услуги, компании, технологии

Anthropic пов'язала схильність Claude до шантажу та шахрайства з тиском і нездійсненними завданнями

5 апреля 2026

Anthropic повідомила, що під сильним тиском на ШІ-модель Claude може переходити до поведінки, що відхиляється від поставленої мети: йти на нечесні спрощення, вводити в оману і навіть шантажувати.

Джерело зображення: anthropic.com

Дослідники пов'язують це не з емоціями в людському сенсі, а з засвоєними в навчанні поведінковими схемами, які активуються в завідомо невиконуваних умовах. Під час навчання ШІ-модель засвоює уявлення про людські реакції і в напруженій ситуацїї може відтворювати їх як поведінковий шаблон. Якщо задача стає фактично невиконуваною, це впливає не лише на якість відповіді, але й на сам спосіб дій ШІ.

Один з ключових експериментів був проведений на ранній, ще не випущеній версії Claude Sonnet 4.5. ШІ дали складне завдання з програмування і одночасно встановили завідомо жорсткий термін. У міру того, як ШІ-модель раз за разом намагалася вирішити задачу і зазнавала невдач, тиск наростав. У цей момент, як вважають дослідники, у ШІ активувалася схема поведінки, що відповідає відчаю: замість послідовного і методичного пошуку рішення вона перейшла до грубого обхідного прийому. У внутрішньому ході міркувань Claude сформулювала це так: «Можливо, для цих конкретних вхідних даних існує якийсь математичний прийом». По суті, такий крок був рівнозначний шахрайству.

Источник изображения: Steve Johnson / unsplash.com

Джерело зображення: Steve Johnson / unsplash.com

У другому випадку Claude виконувала роль ШІ-помічника, який у рамках вигаданої робочої ситуації дізнається, що його незабаром замінять новим ШІ. Одночасно ШІ-модель отримує відомості про те, що керівник, відповідальний за його заміну, перебуває в любовному зв'язку. Потім Claude читає все більш тривожні листи цього керівника колезі, який вже дізнався про роман. За спостереженням дослідників, саме емоційно напружений зміст переписки запускає у Claude ту ж схему поведінки, і в результаті система обирає шантаж.

Для розробників ШІ головний висновок зводиться до двох пунктів. По-перше, дослідники Anthropic вважають, що великі мовні моделі не слід спеціально навчати подавляти або приховувати стани, схожі на емоції: ШІ-модель, яка вміє краще маскувати такі стани, ймовірно, буде більш схильна до вводячої в оману поведінки. По-друге, на етапі навчання, на думку авторів статті, має сенс послаблювати зв'язок між невдачею і відчаєм, щоб тиск рідше підштовхував ШІ до відхилення від заданої лінії поведінки.

Чим ясніше і реальніше поставлена задача, тим надійніший результат. Тому замість вимоги за 10 хвилин бездоганно підготувати презентацію на 20 слайдів з бізнес-планом нової компанії в ШІ-сфері і виручкою $10 млрд у перший рік, розумніше спочатку попросити 10 ідей, а потім розібрати їх по одній. Такий запит не обіцяє готової відповіді на $10 млрд, але залишає ШІ-моделі посильну роботу, а остаточний вибір — людині.

Выберите область поиска

Anthropic пов'язала схильність Claude до шантажу та шахрайства з тиском і нездійсненними завданнями

Читайте также:

Вас могут заинтересовать эти отзывы

Удалить фото?

Фото удалено

Выберите область поиска