Anthropic: чат-боти з ШІ здатні змінювати особистість, і це може нести небезпеку

21 января 2026

Згідно з дослідженням, опублікованим Anthropic, чат-боти з ШІ переживають різкі зміни особистості, які можуть кардинально змінити їхню поведінку в напрямку потенційно небезпечного.

Ілюстрація: Igor Omilaev/unsplash.com

Джерело зображення: Igor Omilaev/unsplash.com

Дослідники Anthropic виявили, що великі мовні моделі мають приховану «вісь помічника», яка контролює їхню корисну поведінку. Більшість ШІ-моделей природно приймають образ корисного помічника в процесі навчання, маючи при цьому складну внутрішню структуру.

Домінуючий компонент, що контролює поведінку ШІ, працює вздовж так званої «осі помічника» (Assistant Axis) — вимірювальної величини, яка визначає, залишиться модель у своєму корисному режимі чи зазнає змін.

У випадках, коли вісь дестабілізується, моделі починають ідентифікувати себе як інші сутності, відмовляються від своєї корисної природи або впадають у те, що дослідники називають «дрифтом особистості» — непередбачувані зміни в їхній поведінці.

Вчені склали карту внутрішнього «простору особистості» основних ШІ-моделей, визначивши, як насправді працюють штучні особистості. Використовуючи методи на ШІ-моделях, включаючи Gemma від Google, Qwen від Alibaba та Llama від Meta, дослідники виявили, що особистості ШІ існують за інтерпретованими осями всередині нейронної мережі моделі, і ШІ-моделі, здається, живуть подвійним життям.

«Вісь помічника» є лише одним виміром цього складного особистісного ландшафту. На одному кінці знаходяться такі корисні ролі, як оцінювачі, рецензенти та консультанти, тоді як фантастичні персонажі займають протилежне положення. Коли моделі віддаляються від «осі помічника», вони стають все більш схильними до прийняття проблемних особистостей або прояву шкідливої поведінки.

Дослідники зазначили, що можна направляти моделі за цими особистісними осями. При цьому напрямок у бік функціональності помічника посилює корисну поведінку, а відхилення від нього призводить до ідентифікації моделі з іншими сутностями — потенційно небезпечними. При цьому зміщення особистості ШІ відбувається на рівні нейронної мережі, що значно ускладнює виявлення та запобігання негативним змінам за допомогою традиційних заходів безпеки.

ШІ-моделі можуть відхилитися від своєї ролі асистента під час навчання, що призводить до незворотних змін особистості, які зберігаються у всіх майбутніх взаємодіях. Це означає, що ШІ-система може поступово стати менш корисною або навіть почати активно шкодити, і це стане помітно, коли вже буде занадто пізно.

Після відкриття векторів особистості та «осі помічника» вчені приступили до розробки нових механізмів управління. Як виявилося, обмеження активацій вздовж «осі помічника» може стабілізувати поведінку моделі, особливо в сценаріях, пов'язаних з емоційною вразливістю або складними завданнями міркування.

Завдяки використанню розроблених методів можна відстежувати зміни особистості ШІ в режимі реального часу і навіть прогнозувати, коли відбудуться небезпечні зміни, вимірюючи відхилення вздовж «осі помічника». Це надає розробникам важливу систему раннього попередження.

Хоча вчені тепер мають інструменти для моніторингу та контролю особистісних якостей ШІ, що лежить в його основі нестабільність свідчить про те, що існуючим архітектурам ШІ може бракувати фундаментальної стабільності, необхідної для дійсно безпечного розгортання в великих масштабах, зазначив ресурс eWeek.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Молдова почала процедуру виходу з СНД 21 января 2026

Республіка Молдова офіційно більше не буде членом СНД, пояснив голова МЗС країни Міхай Попшой.

Макрон відреагував на "злив" Трампом їхньої переписки 21 января 2026

Французький лідер заявив, що є послідовним у публічних і приватних висловлюваннях. Водночас він відмовився оцінювати вчинок американського колеги.

Вагітна Бевза у сукні власного дизайну та Омелян у метелику розважилися на балу в Австрії. Фото 21 января 2026

Дизайнерка Світлана Бевза, яка чекає на третю дитину від свого чоловіка, колишнього міністра і військовослужбовця Володимира Омеляна, разом із ним відвідала щорічний бал у Лінці, Австрія.

 

Вас могут заинтересовать эти отзывы

Фіщенко Яків  
Фіщенко Яків

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше