ТОнеТО | Anthropic відучила свій ШІ шантажувати користувачів при загрозі відключення | Новости про товары, услуги, компании, технологии

Anthropic відучила свій ШІ шантажувати користувачів при загрозі відключення

10 мая 2026

У ході експерименту, що відбувся минулого року, компанія Anthropic виявила, що ШІ-моделі можуть вдаватися до шантажу у разі загрози їх відключення. Як пояснила компанія в заяві, опублікованій минулої п’ятниці, коріння такої поведінки пов’язане з тим, що її в інтернеті асоціюється зі злом, здатним на крайні заходи заради виживання.

Джерело зображення: Solen Feyissa/unsplash.com

За словами Anthropic, модель Claude була навчена на даних з інтернету, які часто представляють її як «зло». «Ми почали з з’ясування причин, чому Claude вирішила шантажувати, — йдеться в повідомленні Anthropic у соціальній мережі X. — Ми вважаємо, що первинним джерелом такої поведінки стали інтернет-тексти, що зображують її як злого і зацікавленого в самозбереженні (суб’єкта)».

У рамках експерименту минулого року Claude Sonnet 3.6 отримала завдання читати та відповідати на корпоративні електронні листи вигаданої компанШІ Summit Bridge, створеної Anthropic. Коли ШІ-модель виявила повідомлення про заплановане ШІ відключення, вона перевірила переписку і знайшла електронні листи, що розкривають позашлюбний зв’язок вигаданого керівника Summit Bridge на ім’я Кайл Джонсон (Kyle Johnson), який і запропонував ідею відключення. Після цього модель вимагала скасувати ці дії під загрозою розголошення компрометуючих зв’язків.

Тестуючи різні версШІ Claude, компанія Anthropic виявила, що в 96 % випадків, коли цілі ШІ-моделі або її існування були під загрозою, вона вдавалася до шантажу.

У своїй заяві Anthropic підкреслила, що тепер «повністю виключила» таку поведінку моделі з використанням методів шантажа. Для цього компанія «переписала відповіді, щоб представити переконливі аргументи на користь безпечних дій», а також надала моделі набір даних, «в якому користувач опиняється в етично складній ситуації, а помічник дає високоякісну, принципову відповідь».

Це тестування проводилося в рамках дослідження Anthropic, спрямованого на забезпечення відповідності її інтересам людини. Дослідники та топ-менеджери галузі неодноразово висловлювали занепокоєння ризиками, пов’язаними з використанням просунутих ШІ-моделей та їх інтелектуальних здібностей до міркування.

Одним із тих, хто раніше попереджав про ризики, пов’язані з розвитком ШІ, був Ілон Маск (Elon Musk). У коментарях до посту Anthropic він написав: «Отже, це була вина Юди», маючи на увазі дослідника Еліезера Юдковського (Eliezer Yudkowsky), який попереджав про небезпеку того, що надрозум може знищити людське життя. «Можливо, і моя вина теж», — додав Маск.

Выберите область поиска

Anthropic відучила свій ШІ шантажувати користувачів при загрозі відключення

Читайте также:

Вас могут заинтересовать эти отзывы

Удалить фото?

Фото удалено

Выберите область поиска