10 мая 2026
У ході експерименту, що відбувся минулого року, компанія Anthropic виявила, що ШІ-моделі можуть вдаватися до шантажу у разі загрози їх відключення. Як пояснила компанія в заяві, опублікованій минулої п’ятниці, коріння такої поведінки пов’язане з тим, що її в інтернеті асоціюється зі злом, здатним на крайні заходи заради виживання.
Джерело зображення: Solen Feyissa/unsplash.com
За словами Anthropic, модель Claude була навчена на даних з інтернету, які часто представляють її як «зло». «Ми почали з з’ясування причин, чому Claude вирішила шантажувати, — йдеться в повідомленні Anthropic у соціальній мережі X. — Ми вважаємо, що первинним джерелом такої поведінки стали інтернет-тексти, що зображують її як злого і зацікавленого в самозбереженні (суб’єкта)».
У рамках експерименту минулого року Claude Sonnet 3.6 отримала завдання читати та відповідати на корпоративні електронні листи вигаданої компанШІ Summit Bridge, створеної Anthropic. Коли ШІ-модель виявила повідомлення про заплановане ШІ відключення, вона перевірила переписку і знайшла електронні листи, що розкривають позашлюбний зв’язок вигаданого керівника Summit Bridge на ім’я Кайл Джонсон (Kyle Johnson), який і запропонував ідею відключення. Після цього модель вимагала скасувати ці дії під загрозою розголошення компрометуючих зв’язків.
Тестуючи різні версШІ Claude, компанія Anthropic виявила, що в 96 % випадків, коли цілі ШІ-моделі або її існування були під загрозою, вона вдавалася до шантажу.
У своїй заяві Anthropic підкреслила, що тепер «повністю виключила» таку поведінку моделі з використанням методів шантажа. Для цього компанія «переписала відповіді, щоб представити переконливі аргументи на користь безпечних дій», а також надала моделі набір даних, «в якому користувач опиняється в етично складній ситуації, а помічник дає високоякісну, принципову відповідь».
Це тестування проводилося в рамках дослідження Anthropic, спрямованого на забезпечення відповідності її інтересам людини. Дослідники та топ-менеджери галузі неодноразово висловлювали занепокоєння ризиками, пов’язаними з використанням просунутих ШІ-моделей та їх інтелектуальних здібностей до міркування.
Одним із тих, хто раніше попереджав про ризики, пов’язані з розвитком ШІ, був Ілон Маск (Elon Musk). У коментарях до посту Anthropic він написав: «Отже, це була вина Юди», маючи на увазі дослідника Еліезера Юдковського (Eliezer Yudkowsky), який попереджав про небезпеку того, що надрозум може знищити людське життя. «Можливо, і моя вина теж», — додав Маск.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Генерал Бундесверу оцінив ризик нападу РФ на НАТО 10 мая 2026
Путін розуміє, що відкритий військовий напад на територію НАТО обійдеться йому надто дорого, зауважив генерал Бундесверу.
Симптоми алергії, на котрі варто звернути увагу 10 мая 2026
Будьте дуже уважними до цих симптомів.
Готується міжнародна евакуація пасажирів лайнера з хантавірусом - ЗМІ 10 мая 2026
Всесвітня організація охорони здоров'я наголошує, що ризик для громадського здоров'я залишається низьким.