19 сентября 2025
OpenAI опублікувала результати дослідження, в якому описала своє протистояння шахрайству у моделях штучного інтелекту. Виникає ситуація, коли «ШІ певним чином поводиться на поверхні, приховуючи свої справжні цілі», — пояснили в компанії.
Джерело зображення: Mariia Shalabaieva / unsplash.com
У матеріалі, підготовленому спільно з дослідницькою організацією Apollo Research, такі механізми змови порівнюються з діями біржового маклера, який порушує закон, щоб отримати максимальний прибуток. У більшості випадків така поведінка ШІ поки що переважно безпечна. «Найбільш часті збої пов'язані з простими формами обману — наприклад, коли модель робить вигляд, що виконала завдання, не виконуючи його насправді», — пишуть дослідники. Ефективним засобом проти таких неполадок є метод «свідомого вирівнювання». Але способу навчити модель таким чином, щоб вона зовсім перестала шахраювати, вчені не знайшли — і навіть навпаки, в такому випадку вона починає шахраювати ще витонченіше, щоб її не викрили.
Що дивно, модель розуміє, коли щодо неї проводять перевірку, і може почати робити вигляд, що перестала шахраювати, щоб пройти тест — але при цьому продовжувати хитрувати. «Часто моделі краще усвідомлюють, що їх оцінюють. Ця ситуаційна обізнаність може сама по собі ослабити спроби шахрайства незалежно від справжнього вирівнювання», — повідомляють автори проєкту. Моделі можуть брехати, і це не новина. Багато користувачів чат-ботів стикалися з галюцинаціями, коли ШІ з упевненістю дає невідповідь дійсності. Але галюцинація — це, по суті, висловлена з упевненістю здогадка. Шахрайство — інша справа. Це навмисна дія.
Джерело зображення: Growtika / unsplash.com
Дослідники встановили, що метод «свідомого вирівнювання» зменшує кількість подібних інцидентів. Він полягає в тому, щоб навчити модель «антишахрайській специфікації», а потім, перед тим, як модель почне виконувати дії, проінструктувати її звірятися з цією специфікацією. Так само й батьки змушують дітей повторювати правила, перш ніж дати їм пограти. Дослідники OpenAI наполягають, що брехня, в якій вони викрили власні моделі компанії або навіть сервіс ChatGPT, не є такою вже серйозною.
«Ця робота була проведена в змодельованих середовищах, і ми вважаємо, що вона представляє собою майбутні сценарії використання. На сьогоднішній день ми не зафіксували серйозних махінацій у нашому робочому трафіку. Тим не менш, добре відомо, що у ChatGPT зустрічається обман у деяких формах. Його можна попросити реалізувати якийсь веб-сайт, і він може відповісти: „Так, я відмінно впорався“. І це буде просто брехня. Залишаються дрібні форми обману, які нам ще потрібно усунути», — прокоментував ресурсу TechCrunch результати дослідження співзасновник OpenAI Войцех Заремба (Wojciech Zaremba).
Але й нехтувати такими відкриттями не можна: ШІ все частіше використовується в корпоративних середовищах, де кожен збій ризикує стати критичним. «Оскільки ШІ починають доручати все більш складні завдання з реальними наслідками, і він починає переслідувати все більш неоднозначні, довгострокові цілі, ми очікуємо, що потенціал шкідливих махінацій зростатиме — тому наші засоби безпеки та наша здатність проводити ретельне тестування повинні посилюватися відповідним чином», — попереджають автори дослідження.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Ящірка з Сахари підказала вченим колеса для марсоходів, які не застряють у піску 27 мая 2026
Природа знову продемонструвала вченим приклад, як пристосовуватися до певних умов середовища. На прикладі невеликої ящірки з Сахари німецькі вчені розробили цікаві колеса для марсохода, яким не загрожує застрягти в піску чи буксувати на складних ділянках. У процесі руху колеса описують вісімку, створюючи одночасно поздовжній і поперечний тиск на поверхню, що немислимо у випадку звичайних коліс.
Віталій Козловський із кумедним обличчям став новим мемом 27 мая 2026
Віталій Козловський із кумедним обличчям став новим мемом. Вірусне фото Цей кадр перетворився на шаблон для жартів
У Росії дозволили арешт майна релокантів 27 мая 2026
Арешт майна використовуватимуть як забезпечувальний захід щодо релокантів, на яких накладено штрафи за політичними статтями.