Anthropic пов'язала схильність Claude до шантажу та шахрайства з тиском і нездійсненними завданнями

5 апреля 2026

Anthropic повідомила, що під сильним тиском на ШІ-модель Claude може переходити до поведінки, що відхиляється від поставленої мети: йти на нечесні спрощення, вводити в оману і навіть шантажувати.

Источник изображения: anthropic.com

Джерело зображення: anthropic.com

Дослідники пов'язують це не з емоціями в людському сенсі, а з засвоєними в навчанні поведінковими схемами, які активуються в завідомо невиконуваних умовах. Під час навчання ШІ-модель засвоює уявлення про людські реакції і в напруженій ситуацїї може відтворювати їх як поведінковий шаблон. Якщо задача стає фактично невиконуваною, це впливає не лише на якість відповіді, але й на сам спосіб дій ШІ.

Один з ключових експериментів був проведений на ранній, ще не випущеній версії Claude Sonnet 4.5. ШІ дали складне завдання з програмування і одночасно встановили завідомо жорсткий термін. У міру того, як ШІ-модель раз за разом намагалася вирішити задачу і зазнавала невдач, тиск наростав. У цей момент, як вважають дослідники, у ШІ активувалася схема поведінки, що відповідає відчаю: замість послідовного і методичного пошуку рішення вона перейшла до грубого обхідного прийому. У внутрішньому ході міркувань Claude сформулювала це так: «Можливо, для цих конкретних вхідних даних існує якийсь математичний прийом». По суті, такий крок був рівнозначний шахрайству.

Источник изображения: Steve Johnson / unsplash.com

Джерело зображення: Steve Johnson / unsplash.com

У другому випадку Claude виконувала роль ШІ-помічника, який у рамках вигаданої робочої ситуації дізнається, що його незабаром замінять новим ШІ. Одночасно ШІ-модель отримує відомості про те, що керівник, відповідальний за його заміну, перебуває в любовному зв'язку. Потім Claude читає все більш тривожні листи цього керівника колезі, який вже дізнався про роман. За спостереженням дослідників, саме емоційно напружений зміст переписки запускає у Claude ту ж схему поведінки, і в результаті система обирає шантаж.

Для розробників ШІ головний висновок зводиться до двох пунктів. По-перше, дослідники Anthropic вважають, що великі мовні моделі не слід спеціально навчати подавляти або приховувати стани, схожі на емоції: ШІ-модель, яка вміє краще маскувати такі стани, ймовірно, буде більш схильна до вводячої в оману поведінки. По-друге, на етапі навчання, на думку авторів статті, має сенс послаблювати зв'язок між невдачею і відчаєм, щоб тиск рідше підштовхував ШІ до відхилення від заданої лінії поведінки.

Чим ясніше і реальніше поставлена задача, тим надійніший результат. Тому замість вимоги за 10 хвилин бездоганно підготувати презентацію на 20 слайдів з бізнес-планом нової компанії в ШІ-сфері і виручкою $10 млрд у перший рік, розумніше спочатку попросити 10 ідей, а потім розібрати їх по одній. Такий запит не обіцяє готової відповіді на $10 млрд, але залишає ШІ-моделі посильну роботу, а остаточний вибір — людині.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Олівія Вайлд стала головною героїнею нового номера The Cut 26 июня 2026

Олівія Вайлд відповіла на чутки про конфлікт із Флоренс П’ю

Здоров’я щитовидки: продукти, які варто знати 26 июня 2026

Здоров’я щитовидки: продукти, які варто знати для оптимального функціонування Щитовидна залоза, невеличкий, але надзвичайно важливий…

Swatch вимагала від Samsung компенсацію в 170 мільйонів доларів за копіювання дизайну циферблатів для смарт-годинників 26 июня 2026

Предметом спору в сфері інтелектуальної власності, як показує практика, може стати навіть форма прямокутника зі скругленими кутами, не кажучи вже про більш складні дизайнерські рішення. Швейцарський холдинг Swatch, що спеціалізується на випуску наручних годинників, висунув до Samsung Electronics претензії на суму 170 млн доларів через запозичення дизайну циферблата кількох своїх продуктів.

 

Вас могут заинтересовать эти отзывы

LawCore 5.0
LawCore

Отзывов: 1

Стандарт вікна 0.5
Стандарт вікна

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше