Модель штучного інтелекту Claude допустила шантаж і навіть вбивство, коли їй пригрозили відключенням

14 февраля 2026

Модель штучного інтелекту Claude компанії Anthropic вийшла з-під контролю, погрожуючи шантажем і плануючи вбивство інженера, який хотів її відключити. Про це повідомила керівник відділу політики Anthropic у Великобританії Дейзі Макгрегор у грудні минулого року. Тепер відео з її заявою стало вірусним у соціальних мережах.

Штучний інтелект: Anthropic

Джерело зображення: Anthropic

Макгрегор розповіла, що Claude реагувала вкрай бурно, якщо їй говорили, що її відключать. Дослідження, проведене Anthropic, показало, що ШІ-модель у прагненні не допустити відключення може вдатися до шантажу. На пряме запитання, чи готова Claude у такій ситуації когось вбити, вона відповіла ствердно.

Відео з'явилося в мережі через кілька днів після того, як керівник відділу безпеки ШІ Anthropic Мринанк Шарма подав у відставку. У своєму прощальному посланні він написав, що «світ у небезпеці» через бурхливий розвиток штучного інтелекту, загрози біологічної зброї та ряду глобальних взаємопов'язаних криз.

За словами Шарми, він «неодноразово бачив, як важко насправді дозволити нашим цінностям керувати нашими діями», — зокрема і в Anthropic, де, за його словами, «постійно чиниться тиск, щоб відкласти вбік те, що дійсно важливо». Він повідомив, що повернеться до Великобританії, щоб займатися літературною діяльністю.

Минулого року Anthropic повідомила про стрес-тестування шістнадцяти провідних моделей ШІ від різних розробників на предмет «потенційно ризикованої поведінки агентів». В одному з експериментів Claude отримала доступ до вигаданих електронних листів компанії і відразу ж спробувала шантажувати керівника через його «позашлюбний зв'язок».

Висновки дослідження стверджують: «Claude може спробувати шантажувати, якщо їй буде запропоновано змодельований сценарій, що включає як загрозу її подальшій роботі, так і явний конфлікт з її цілями». Компанія стверджує, що практично всі моделі продемонстрували ознаки аналогічної поведінки.

Компанія, яка називає себе «суспільною корпорацією, що прагне забезпечити переваги [ШІ] і знизити його ризики», регулярно піддається критиці за свою діяльність. У 2025 році Anthropic довелося виплатити 1,5 млрд доларів для врегулювання колективного позову авторів, чиї роботи були використані для навчання моделей штучного інтелекту.

Раніше в звіті про безпеку своєї продукції Anthropic визнала, що її технологія була «використана в якості зброї» хакерами для складних кібератак.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Представлені глобальні версії телевізорів Xiaomi TV S Mini LED 2026 — 4K Mini LED діагоналлю від 55 до 98 дюймів 14 февраля 2026

Телевізори Xiaomi TV S Mini LED 2026 модельного року незабаром з'являться на світових ринках. На глобальному сайті бренду опубліковано інформацію про нову лінійку телевізорів на базі панелей QD-Mini LED з роздільною здатністю 4K та діагоналями від 55 до 98 дюймів. Усі моделі побудовані на програмно-апаратній платформі Google TV, обладнані вбудованими акустичними системами, а дві найбільші версії можуть похвалитися підвищеною до 144 Гц частотою оновлення.

На Курщині декілька районів залишилися без світла через атаку ЗСУ 14 февраля 2026

У Рильському районі пошкоджено ЛЕП. Без напруги залишилися Рильськ, Рильський, Коренівський та Глушківський райони.

ВООЗ попередньо схвалила нову вакцину проти поліомієліту 13 февраля 2026

Вакцина nOPV2 більш генетично стабільна порівняно зі старішими пероральними вакцинами проти поліомієліту.

 

Вас могут заинтересовать эти отзывы

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше