10 мая 2026
У ході експерименту, що відбувся минулого року, компанія Anthropic виявила, що ШІ-моделі можуть вдаватися до шантажу у разі загрози їх відключення. Як пояснила компанія в заяві, опублікованій минулої п’ятниці, коріння такої поведінки пов’язане з тим, що її в інтернеті асоціюється зі злом, здатним на крайні заходи заради виживання.
Джерело зображення: Solen Feyissa/unsplash.com
За словами Anthropic, модель Claude була навчена на даних з інтернету, які часто представляють її як «зло». «Ми почали з з’ясування причин, чому Claude вирішила шантажувати, — йдеться в повідомленні Anthropic у соціальній мережі X. — Ми вважаємо, що первинним джерелом такої поведінки стали інтернет-тексти, що зображують її як злого і зацікавленого в самозбереженні (суб’єкта)».
У рамках експерименту минулого року Claude Sonnet 3.6 отримала завдання читати та відповідати на корпоративні електронні листи вигаданої компанШІ Summit Bridge, створеної Anthropic. Коли ШІ-модель виявила повідомлення про заплановане ШІ відключення, вона перевірила переписку і знайшла електронні листи, що розкривають позашлюбний зв’язок вигаданого керівника Summit Bridge на ім’я Кайл Джонсон (Kyle Johnson), який і запропонував ідею відключення. Після цього модель вимагала скасувати ці дії під загрозою розголошення компрометуючих зв’язків.
Тестуючи різні версШІ Claude, компанія Anthropic виявила, що в 96 % випадків, коли цілі ШІ-моделі або її існування були під загрозою, вона вдавалася до шантажу.
У своїй заяві Anthropic підкреслила, що тепер «повністю виключила» таку поведінку моделі з використанням методів шантажа. Для цього компанія «переписала відповіді, щоб представити переконливі аргументи на користь безпечних дій», а також надала моделі набір даних, «в якому користувач опиняється в етично складній ситуації, а помічник дає високоякісну, принципову відповідь».
Це тестування проводилося в рамках дослідження Anthropic, спрямованого на забезпечення відповідності її інтересам людини. Дослідники та топ-менеджери галузі неодноразово висловлювали занепокоєння ризиками, пов’язаними з використанням просунутих ШІ-моделей та їх інтелектуальних здібностей до міркування.
Одним із тих, хто раніше попереджав про ризики, пов’язані з розвитком ШІ, був Ілон Маск (Elon Musk). У коментарях до посту Anthropic він написав: «Отже, це була вина Юди», маючи на увазі дослідника Еліезера Юдковського (Eliezer Yudkowsky), який попереджав про небезпеку того, що надрозум може знищити людське життя. «Можливо, і моя вина теж», — додав Маск.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Девід Бекхем, який підтримував українців, склав компанію російській екстенісистці Шараповій на чемпіонаті 4 июня 2026
Девід Бекхем, який підтримував українців, склав компанію російській екстенісистці Шараповій на чемпіонаті. Фото Спортсменка назвала його частиною "сім'ї"
Продукти, котрі збагачують організм фолієвою кислотою 4 июня 2026
Вітамін В9 або фолієва кислота дуже потрібен для організму.
Конгрес США проголосував за обмеження Трампа у війні з Іраном 4 июня 2026
Ухвалення закону свідчить про поступову втрату президентом лояльності своїх однопартійців з Республіканської партії.