5 апреля 2026
Anthropic повідомила, що під сильним тиском на ШІ-модель Claude може переходити до поведінки, що відхиляється від поставленої мети: йти на нечесні спрощення, вводити в оману і навіть шантажувати.
Джерело зображення: anthropic.com
Дослідники пов'язують це не з емоціями в людському сенсі, а з засвоєними в навчанні поведінковими схемами, які активуються в завідомо невиконуваних умовах. Під час навчання ШІ-модель засвоює уявлення про людські реакції і в напруженій ситуацїї може відтворювати їх як поведінковий шаблон. Якщо задача стає фактично невиконуваною, це впливає не лише на якість відповіді, але й на сам спосіб дій ШІ.
Один з ключових експериментів був проведений на ранній, ще не випущеній версії Claude Sonnet 4.5. ШІ дали складне завдання з програмування і одночасно встановили завідомо жорсткий термін. У міру того, як ШІ-модель раз за разом намагалася вирішити задачу і зазнавала невдач, тиск наростав. У цей момент, як вважають дослідники, у ШІ активувалася схема поведінки, що відповідає відчаю: замість послідовного і методичного пошуку рішення вона перейшла до грубого обхідного прийому. У внутрішньому ході міркувань Claude сформулювала це так: «Можливо, для цих конкретних вхідних даних існує якийсь математичний прийом». По суті, такий крок був рівнозначний шахрайству.
Джерело зображення: Steve Johnson / unsplash.com
У другому випадку Claude виконувала роль ШІ-помічника, який у рамках вигаданої робочої ситуації дізнається, що його незабаром замінять новим ШІ. Одночасно ШІ-модель отримує відомості про те, що керівник, відповідальний за його заміну, перебуває в любовному зв'язку. Потім Claude читає все більш тривожні листи цього керівника колезі, який вже дізнався про роман. За спостереженням дослідників, саме емоційно напружений зміст переписки запускає у Claude ту ж схему поведінки, і в результаті система обирає шантаж.
Для розробників ШІ головний висновок зводиться до двох пунктів. По-перше, дослідники Anthropic вважають, що великі мовні моделі не слід спеціально навчати подавляти або приховувати стани, схожі на емоції: ШІ-модель, яка вміє краще маскувати такі стани, ймовірно, буде більш схильна до вводячої в оману поведінки. По-друге, на етапі навчання, на думку авторів статті, має сенс послаблювати зв'язок між невдачею і відчаєм, щоб тиск рідше підштовхував ШІ до відхилення від заданої лінії поведінки.
Чим ясніше і реальніше поставлена задача, тим надійніший результат. Тому замість вимоги за 10 хвилин бездоганно підготувати презентацію на 20 слайдів з бізнес-планом нової компанії в ШІ-сфері і виручкою $10 млрд у перший рік, розумніше спочатку попросити 10 ідей, а потім розібрати їх по одній. Такий запит не обіцяє готової відповіді на $10 млрд, але залишає ШІ-моделі посильну роботу, а остаточний вибір — людині.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Пентагон розблокував $400 мільйонів для України 30 апреля 2026
Після критики сенатора США виділили кошти, схвалені раніше Конгресом, для зміцнення оборонного потенціалу Європи.
Новий аксесуар покращує якість зйомки на iPhone та Galaxy 30 апреля 2026
Новий аксесуар покращує якість зйомки на iPhone та Galaxy
Візит Чарльза III: Білий дім назвав Трампа "королем" 29 апреля 2026
Це не перший випадок, коли образ господаря Білого дому публічно асоціюють із монархом.