Anthropic відучила свій ШІ шантажувати користувачів при загрозі відключення

10 мая 2026

У ході експерименту, що відбувся минулого року, компанія Anthropic виявила, що ШІ-моделі можуть вдаватися до шантажу у разі загрози їх відключення. Як пояснила компанія в заяві, опублікованій минулої п’ятниці, коріння такої поведінки пов’язане з тим, що її в інтернеті асоціюється зі злом, здатним на крайні заходи заради виживання.

Зображення: Solen Feyissa/unsplash.com

Джерело зображення: Solen Feyissa/unsplash.com

За словами Anthropic, модель Claude була навчена на даних з інтернету, які часто представляють її як «зло». «Ми почали з з’ясування причин, чому Claude вирішила шантажувати, — йдеться в повідомленні Anthropic у соціальній мережі X. — Ми вважаємо, що первинним джерелом такої поведінки стали інтернет-тексти, що зображують її як злого і зацікавленого в самозбереженні (суб’єкта)».

У рамках експерименту минулого року Claude Sonnet 3.6 отримала завдання читати та відповідати на корпоративні електронні листи вигаданої компанШІ Summit Bridge, створеної Anthropic. Коли ШІ-модель виявила повідомлення про заплановане ШІ відключення, вона перевірила переписку і знайшла електронні листи, що розкривають позашлюбний зв’язок вигаданого керівника Summit Bridge на ім’я Кайл Джонсон (Kyle Johnson), який і запропонував ідею відключення. Після цього модель вимагала скасувати ці дії під загрозою розголошення компрометуючих зв’язків.

Тестуючи різні версШІ Claude, компанія Anthropic виявила, що в 96 % випадків, коли цілі ШІ-моделі або її існування були під загрозою, вона вдавалася до шантажу.

У своїй заяві Anthropic підкреслила, що тепер «повністю виключила» таку поведінку моделі з використанням методів шантажа. Для цього компанія «переписала відповіді, щоб представити переконливі аргументи на користь безпечних дій», а також надала моделі набір даних, «в якому користувач опиняється в етично складній ситуації, а помічник дає високоякісну, принципову відповідь».

Це тестування проводилося в рамках дослідження Anthropic, спрямованого на забезпечення відповідності її інтересам людини. Дослідники та топ-менеджери галузі неодноразово висловлювали занепокоєння ризиками, пов’язаними з використанням просунутих ШІ-моделей та їх інтелектуальних здібностей до міркування.

Одним із тих, хто раніше попереджав про ризики, пов’язані з розвитком ШІ, був Ілон Маск (Elon Musk). У коментарях до посту Anthropic він написав: «Отже, це була вина Юди», маючи на увазі дослідника Еліезера Юдковського (Eliezer Yudkowsky), який попереджав про небезпеку того, що надрозум може знищити людське життя. «Можливо, і моя вина теж», — додав Маск.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Девід Бекхем, який підтримував українців, склав компанію російській екстенісистці Шараповій на чемпіонаті 4 июня 2026

Девід Бекхем, який підтримував українців, склав компанію російській екстенісистці Шараповій на чемпіонаті. Фото Спортсменка назвала його частиною "сім'ї"

Продукти, котрі збагачують організм фолієвою кислотою 4 июня 2026

Вітамін В9 або фолієва кислота дуже потрібен для організму.

Конгрес США проголосував за обмеження Трампа у війні з Іраном 4 июня 2026

Ухвалення закону свідчить про поступову втрату президентом лояльності своїх однопартійців з Республіканської партії.

 

Вас могут заинтересовать эти отзывы

TKALICH YEVHENII 4.9
TKALICH YEVHENII

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше