21 января 2026
Згідно з дослідженням, опублікованим Anthropic, чат-боти з ШІ переживають різкі зміни особистості, які можуть кардинально змінити їхню поведінку в напрямку потенційно небезпечного.
Джерело зображення: Igor Omilaev/unsplash.com
Дослідники Anthropic виявили, що великі мовні моделі мають приховану «вісь помічника», яка контролює їхню корисну поведінку. Більшість ШІ-моделей природно приймають образ корисного помічника в процесі навчання, маючи при цьому складну внутрішню структуру.
Домінуючий компонент, що контролює поведінку ШІ, працює вздовж так званої «осі помічника» (Assistant Axis) — вимірювальної величини, яка визначає, залишиться модель у своєму корисному режимі чи зазнає змін.
У випадках, коли вісь дестабілізується, моделі починають ідентифікувати себе як інші сутності, відмовляються від своєї корисної природи або впадають у те, що дослідники називають «дрифтом особистості» — непередбачувані зміни в їхній поведінці.
Вчені склали карту внутрішнього «простору особистості» основних ШІ-моделей, визначивши, як насправді працюють штучні особистості. Використовуючи методи на ШІ-моделях, включаючи Gemma від Google, Qwen від Alibaba та Llama від Meta, дослідники виявили, що особистості ШІ існують за інтерпретованими осями всередині нейронної мережі моделі, і ШІ-моделі, здається, живуть подвійним життям.
«Вісь помічника» є лише одним виміром цього складного особистісного ландшафту. На одному кінці знаходяться такі корисні ролі, як оцінювачі, рецензенти та консультанти, тоді як фантастичні персонажі займають протилежне положення. Коли моделі віддаляються від «осі помічника», вони стають все більш схильними до прийняття проблемних особистостей або прояву шкідливої поведінки.
Дослідники зазначили, що можна направляти моделі за цими особистісними осями. При цьому напрямок у бік функціональності помічника посилює корисну поведінку, а відхилення від нього призводить до ідентифікації моделі з іншими сутностями — потенційно небезпечними. При цьому зміщення особистості ШІ відбувається на рівні нейронної мережі, що значно ускладнює виявлення та запобігання негативним змінам за допомогою традиційних заходів безпеки.
ШІ-моделі можуть відхилитися від своєї ролі асистента під час навчання, що призводить до незворотних змін особистості, які зберігаються у всіх майбутніх взаємодіях. Це означає, що ШІ-система може поступово стати менш корисною або навіть почати активно шкодити, і це стане помітно, коли вже буде занадто пізно.
Після відкриття векторів особистості та «осі помічника» вчені приступили до розробки нових механізмів управління. Як виявилося, обмеження активацій вздовж «осі помічника» може стабілізувати поведінку моделі, особливо в сценаріях, пов'язаних з емоційною вразливістю або складними завданнями міркування.
Завдяки використанню розроблених методів можна відстежувати зміни особистості ШІ в режимі реального часу і навіть прогнозувати, коли відбудуться небезпечні зміни, вимірюючи відхилення вздовж «осі помічника». Це надає розробникам важливу систему раннього попередження.
Хоча вчені тепер мають інструменти для моніторингу та контролю особистісних якостей ШІ, що лежить в його основі нестабільність свідчить про те, що існуючим архітектурам ШІ може бракувати фундаментальної стабільності, необхідної для дійсно безпечного розгортання в великих масштабах, зазначив ресурс eWeek.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Новий електромобіль встановив світовий рекорд за запасом ходу 4 марта 2026
Новий електромобіль встановив світовий рекорд за запасом ходу
Стінг публічно звернувся до Росії з проханням - воно стосувалося українців 4 марта 2026
"В ім'я людяності, в ім'я музики". Стінг публічно звернувся до Росії з проханням Прохання стосувалося українців
Повідомлено про підозру судді, який допоміг позивачу захопити квартиру у Києві 4 марта 2026
Повідомлено про підозру судді, який допоміг позивачу захопити квартиру у Києві