ТОнеТО | OpenAI звинуватила ШІ в навмисній брехні — повністю подолати це поки не вдається | Новости про товары, услуги, компании, технологии

OpenAI звинуватила ШІ в навмисній брехні — повністю подолати це поки не вдається

19 сентября 2025

OpenAI опублікувала результати дослідження, в якому описала своє протистояння шахрайству у моделях штучного інтелекту. Виникає ситуація, коли «ШІ певним чином поводиться на поверхні, приховуючи свої справжні цілі», — пояснили в компанії.

Источник изображения: Mariia Shalabaieva / unsplash.com

Джерело зображення: Mariia Shalabaieva / unsplash.com

У матеріалі, підготовленому спільно з дослідницькою організацією Apollo Research, такі механізми змови порівнюються з діями біржового маклера, який порушує закон, щоб отримати максимальний прибуток. У більшості випадків така поведінка ШІ поки що переважно безпечна. «Найбільш часті збої пов'язані з простими формами обману — наприклад, коли модель робить вигляд, що виконала завдання, не виконуючи його насправді», — пишуть дослідники. Ефективним засобом проти таких неполадок є метод «свідомого вирівнювання». Але способу навчити модель таким чином, щоб вона зовсім перестала шахраювати, вчені не знайшли — і навіть навпаки, в такому випадку вона починає шахраювати ще витонченіше, щоб її не викрили.

Що дивно, модель розуміє, коли щодо неї проводять перевірку, і може почати робити вигляд, що перестала шахраювати, щоб пройти тест — але при цьому продовжувати хитрувати. «Часто моделі краще усвідомлюють, що їх оцінюють. Ця ситуаційна обізнаність може сама по собі ослабити спроби шахрайства незалежно від справжнього вирівнювання», — повідомляють автори проєкту. Моделі можуть брехати, і це не новина. Багато користувачів чат-ботів стикалися з галюцинаціями, коли ШІ з упевненістю дає невідповідь дійсності. Але галюцинація — це, по суті, висловлена з упевненістю здогадка. Шахрайство — інша справа. Це навмисна дія.

Источник изображения: Growtika / unsplash.com

Джерело зображення: Growtika / unsplash.com

Дослідники встановили, що метод «свідомого вирівнювання» зменшує кількість подібних інцидентів. Він полягає в тому, щоб навчити модель «антишахрайській специфікації», а потім, перед тим, як модель почне виконувати дії, проінструктувати її звірятися з цією специфікацією. Так само й батьки змушують дітей повторювати правила, перш ніж дати їм пограти. Дослідники OpenAI наполягають, що брехня, в якій вони викрили власні моделі компанії або навіть сервіс ChatGPT, не є такою вже серйозною.

«Ця робота була проведена в змодельованих середовищах, і ми вважаємо, що вона представляє собою майбутні сценарії використання. На сьогоднішній день ми не зафіксували серйозних махінацій у нашому робочому трафіку. Тим не менш, добре відомо, що у ChatGPT зустрічається обман у деяких формах. Його можна попросити реалізувати якийсь веб-сайт, і він може відповісти: „Так, я відмінно впорався“. І це буде просто брехня. Залишаються дрібні форми обману, які нам ще потрібно усунути», — прокоментував ресурсу TechCrunch результати дослідження співзасновник OpenAI Войцех Заремба (Wojciech Zaremba).

Але й нехтувати такими відкриттями не можна: ШІ все частіше використовується в корпоративних середовищах, де кожен збій ризикує стати критичним. «Оскільки ШІ починають доручати все більш складні завдання з реальними наслідками, і він починає переслідувати все більш неоднозначні, довгострокові цілі, ми очікуємо, що потенціал шкідливих махінацій зростатиме — тому наші засоби безпеки та наша здатність проводити ретельне тестування повинні посилюватися відповідним чином», — попереджають автори дослідження.

Выберите область поиска

OpenAI звинуватила ШІ в навмисній брехні — повністю подолати це поки не вдається

Читайте также:

Вас могут заинтересовать эти отзывы

Удалить фото?

Фото удалено

Выберите область поиска