5 апреля 2026
Anthropic повідомила, що під сильним тиском на ШІ-модель Claude може переходити до поведінки, що відхиляється від поставленої мети: йти на нечесні спрощення, вводити в оману і навіть шантажувати.
Джерело зображення: anthropic.com
Дослідники пов'язують це не з емоціями в людському сенсі, а з засвоєними в навчанні поведінковими схемами, які активуються в завідомо невиконуваних умовах. Під час навчання ШІ-модель засвоює уявлення про людські реакції і в напруженій ситуацїї може відтворювати їх як поведінковий шаблон. Якщо задача стає фактично невиконуваною, це впливає не лише на якість відповіді, але й на сам спосіб дій ШІ.
Один з ключових експериментів був проведений на ранній, ще не випущеній версії Claude Sonnet 4.5. ШІ дали складне завдання з програмування і одночасно встановили завідомо жорсткий термін. У міру того, як ШІ-модель раз за разом намагалася вирішити задачу і зазнавала невдач, тиск наростав. У цей момент, як вважають дослідники, у ШІ активувалася схема поведінки, що відповідає відчаю: замість послідовного і методичного пошуку рішення вона перейшла до грубого обхідного прийому. У внутрішньому ході міркувань Claude сформулювала це так: «Можливо, для цих конкретних вхідних даних існує якийсь математичний прийом». По суті, такий крок був рівнозначний шахрайству.
Джерело зображення: Steve Johnson / unsplash.com
У другому випадку Claude виконувала роль ШІ-помічника, який у рамках вигаданої робочої ситуації дізнається, що його незабаром замінять новим ШІ. Одночасно ШІ-модель отримує відомості про те, що керівник, відповідальний за його заміну, перебуває в любовному зв'язку. Потім Claude читає все більш тривожні листи цього керівника колезі, який вже дізнався про роман. За спостереженням дослідників, саме емоційно напружений зміст переписки запускає у Claude ту ж схему поведінки, і в результаті система обирає шантаж.
Для розробників ШІ головний висновок зводиться до двох пунктів. По-перше, дослідники Anthropic вважають, що великі мовні моделі не слід спеціально навчати подавляти або приховувати стани, схожі на емоції: ШІ-модель, яка вміє краще маскувати такі стани, ймовірно, буде більш схильна до вводячої в оману поведінки. По-друге, на етапі навчання, на думку авторів статті, має сенс послаблювати зв'язок між невдачею і відчаєм, щоб тиск рідше підштовхував ШІ до відхилення від заданої лінії поведінки.
Чим ясніше і реальніше поставлена задача, тим надійніший результат. Тому замість вимоги за 10 хвилин бездоганно підготувати презентацію на 20 слайдів з бізнес-планом нової компанії в ШІ-сфері і виручкою $10 млрд у перший рік, розумніше спочатку попросити 10 ідей, а потім розібрати їх по одній. Такий запит не обіцяє готової відповіді на $10 млрд, але залишає ШІ-моделі посильну роботу, а остаточний вибір — людині.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Олівія Вайлд стала головною героїнею нового номера The Cut 26 июня 2026
Олівія Вайлд відповіла на чутки про конфлікт із Флоренс П’ю
Здоров’я щитовидки: продукти, які варто знати 26 июня 2026
Здоров’я щитовидки: продукти, які варто знати для оптимального функціонування Щитовидна залоза, невеличкий, але надзвичайно важливий…
Предметом спору в сфері інтелектуальної власності, як показує практика, може стати навіть форма прямокутника зі скругленими кутами, не кажучи вже про більш складні дизайнерські рішення. Швейцарський холдинг Swatch, що спеціалізується на випуску наручних годинників, висунув до Samsung Electronics претензії на суму 170 млн доларів через запозичення дизайну циферблата кількох своїх продуктів.