Anthropic відучила свій ШІ шантажувати користувачів при загрозі відключення

10 мая 2026

У ході експерименту, що відбувся минулого року, компанія Anthropic виявила, що ШІ-моделі можуть вдаватися до шантажу у разі загрози їх відключення. Як пояснила компанія в заяві, опублікованій минулої п’ятниці, коріння такої поведінки пов’язане з тим, що її в інтернеті асоціюється зі злом, здатним на крайні заходи заради виживання.

Зображення: Solen Feyissa/unsplash.com

Джерело зображення: Solen Feyissa/unsplash.com

За словами Anthropic, модель Claude була навчена на даних з інтернету, які часто представляють її як «зло». «Ми почали з з’ясування причин, чому Claude вирішила шантажувати, — йдеться в повідомленні Anthropic у соціальній мережі X. — Ми вважаємо, що первинним джерелом такої поведінки стали інтернет-тексти, що зображують її як злого і зацікавленого в самозбереженні (суб’єкта)».

У рамках експерименту минулого року Claude Sonnet 3.6 отримала завдання читати та відповідати на корпоративні електронні листи вигаданої компанШІ Summit Bridge, створеної Anthropic. Коли ШІ-модель виявила повідомлення про заплановане ШІ відключення, вона перевірила переписку і знайшла електронні листи, що розкривають позашлюбний зв’язок вигаданого керівника Summit Bridge на ім’я Кайл Джонсон (Kyle Johnson), який і запропонував ідею відключення. Після цього модель вимагала скасувати ці дії під загрозою розголошення компрометуючих зв’язків.

Тестуючи різні версШІ Claude, компанія Anthropic виявила, що в 96 % випадків, коли цілі ШІ-моделі або її існування були під загрозою, вона вдавалася до шантажу.

У своїй заяві Anthropic підкреслила, що тепер «повністю виключила» таку поведінку моделі з використанням методів шантажа. Для цього компанія «переписала відповіді, щоб представити переконливі аргументи на користь безпечних дій», а також надала моделі набір даних, «в якому користувач опиняється в етично складній ситуації, а помічник дає високоякісну, принципову відповідь».

Це тестування проводилося в рамках дослідження Anthropic, спрямованого на забезпечення відповідності її інтересам людини. Дослідники та топ-менеджери галузі неодноразово висловлювали занепокоєння ризиками, пов’язаними з використанням просунутих ШІ-моделей та їх інтелектуальних здібностей до міркування.

Одним із тих, хто раніше попереджав про ризики, пов’язані з розвитком ШІ, був Ілон Маск (Elon Musk). У коментарях до посту Anthropic він написав: «Отже, це була вина Юди», маючи на увазі дослідника Еліезера Юдковського (Eliezer Yudkowsky), який попереджав про небезпеку того, що надрозум може знищити людське життя. «Можливо, і моя вина теж», — додав Маск.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Генерал Бундесверу оцінив ризик нападу РФ на НАТО 10 мая 2026

Путін розуміє, що відкритий військовий напад на територію НАТО обійдеться йому надто дорого, зауважив генерал Бундесверу.

Симптоми алергії, на котрі варто звернути увагу 10 мая 2026

Будьте дуже уважними до цих симптомів.

Готується міжнародна евакуація пасажирів лайнера з хантавірусом - ЗМІ 10 мая 2026

Всесвітня організація охорони здоров'я наголошує, що ризик для громадського здоров'я залишається низьким.

 

Вас могут заинтересовать эти отзывы

Leo shop 0.6
Leo shop

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше