19 сентября 2025
OpenAI опублікувала результати дослідження, в якому описала своє протистояння шахрайству у моделях штучного інтелекту. Виникає ситуація, коли «ШІ певним чином поводиться на поверхні, приховуючи свої справжні цілі», — пояснили в компанії.
Джерело зображення: Mariia Shalabaieva / unsplash.com
У матеріалі, підготовленому спільно з дослідницькою організацією Apollo Research, такі механізми змови порівнюються з діями біржового маклера, який порушує закон, щоб отримати максимальний прибуток. У більшості випадків така поведінка ШІ поки що переважно безпечна. «Найбільш часті збої пов'язані з простими формами обману — наприклад, коли модель робить вигляд, що виконала завдання, не виконуючи його насправді», — пишуть дослідники. Ефективним засобом проти таких неполадок є метод «свідомого вирівнювання». Але способу навчити модель таким чином, щоб вона зовсім перестала шахраювати, вчені не знайшли — і навіть навпаки, в такому випадку вона починає шахраювати ще витонченіше, щоб її не викрили.
Що дивно, модель розуміє, коли щодо неї проводять перевірку, і може почати робити вигляд, що перестала шахраювати, щоб пройти тест — але при цьому продовжувати хитрувати. «Часто моделі краще усвідомлюють, що їх оцінюють. Ця ситуаційна обізнаність може сама по собі ослабити спроби шахрайства незалежно від справжнього вирівнювання», — повідомляють автори проєкту. Моделі можуть брехати, і це не новина. Багато користувачів чат-ботів стикалися з галюцинаціями, коли ШІ з упевненістю дає невідповідь дійсності. Але галюцинація — це, по суті, висловлена з упевненістю здогадка. Шахрайство — інша справа. Це навмисна дія.
Джерело зображення: Growtika / unsplash.com
Дослідники встановили, що метод «свідомого вирівнювання» зменшує кількість подібних інцидентів. Він полягає в тому, щоб навчити модель «антишахрайській специфікації», а потім, перед тим, як модель почне виконувати дії, проінструктувати її звірятися з цією специфікацією. Так само й батьки змушують дітей повторювати правила, перш ніж дати їм пограти. Дослідники OpenAI наполягають, що брехня, в якій вони викрили власні моделі компанії або навіть сервіс ChatGPT, не є такою вже серйозною.
«Ця робота була проведена в змодельованих середовищах, і ми вважаємо, що вона представляє собою майбутні сценарії використання. На сьогоднішній день ми не зафіксували серйозних махінацій у нашому робочому трафіку. Тим не менш, добре відомо, що у ChatGPT зустрічається обман у деяких формах. Його можна попросити реалізувати якийсь веб-сайт, і він може відповісти: „Так, я відмінно впорався“. І це буде просто брехня. Залишаються дрібні форми обману, які нам ще потрібно усунути», — прокоментував ресурсу TechCrunch результати дослідження співзасновник OpenAI Войцех Заремба (Wojciech Zaremba).
Але й нехтувати такими відкриттями не можна: ШІ все частіше використовується в корпоративних середовищах, де кожен збій ризикує стати критичним. «Оскільки ШІ починають доручати все більш складні завдання з реальними наслідками, і він починає переслідувати все більш неоднозначні, довгострокові цілі, ми очікуємо, що потенціал шкідливих махінацій зростатиме — тому наші засоби безпеки та наша здатність проводити ретельне тестування повинні посилюватися відповідним чином», — попереджають автори дослідження.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Названо 8 найнебезпечніших ліків на Землі 19 декабря 2025
"Дорого, пора приймати ліки". — "Але, мам, від них я почуваюся дивно і навіть жахливо, мені не стає краще". — "Але ж їх прописав лікар, ми повинні дотримуватися рекомендацій". Вас не вчили прислухатися до внутрішнього голосу? Ось у чому причина. Точніше, є кілька причин.
Естонія збільшить призов з 2027 року 19 декабря 2025
Призов до війська відбуватиметься двічі на рік, що дасть змогу більш гнучко планувати підготовку особового складу та краще враховувати професійні навички призовників відповідно до потреб Сил оборони.
В Gemini тепер можна давати підказки Nano Banana, малюючи прямо на зображеннях 19 декабря 2025
Google додала в додаток Gemini новий спосіб взаємодії з моделлю Nano Banana. Тепер користувачі можуть давати підказки, малюючи або додаючи анотації прямо на зображеннях, а також перевіряти, чи було відео згенеровано або відредаговано за допомогою штучного інтелекту. Ця функція стала доступною після вчорашнього великого оновлення Gemini 3 Flash.