OpenAI звинуватила ШІ в навмисній брехні — повністю подолати це поки не вдається

19 сентября 2025

OpenAI опублікувала результати дослідження, в якому описала своє протистояння шахрайству у моделях штучного інтелекту. Виникає ситуація, коли «ШІ певним чином поводиться на поверхні, приховуючи свої справжні цілі», — пояснили в компанії.

Источник изображения: Mariia Shalabaieva / unsplash.com

Джерело зображення: Mariia Shalabaieva / unsplash.com

У матеріалі, підготовленому спільно з дослідницькою організацією Apollo Research, такі механізми змови порівнюються з діями біржового маклера, який порушує закон, щоб отримати максимальний прибуток. У більшості випадків така поведінка ШІ поки що переважно безпечна. «Найбільш часті збої пов'язані з простими формами обману — наприклад, коли модель робить вигляд, що виконала завдання, не виконуючи його насправді», — пишуть дослідники. Ефективним засобом проти таких неполадок є метод «свідомого вирівнювання». Але способу навчити модель таким чином, щоб вона зовсім перестала шахраювати, вчені не знайшли — і навіть навпаки, в такому випадку вона починає шахраювати ще витонченіше, щоб її не викрили.

Що дивно, модель розуміє, коли щодо неї проводять перевірку, і може почати робити вигляд, що перестала шахраювати, щоб пройти тест — але при цьому продовжувати хитрувати. «Часто моделі краще усвідомлюють, що їх оцінюють. Ця ситуаційна обізнаність може сама по собі ослабити спроби шахрайства незалежно від справжнього вирівнювання», — повідомляють автори проєкту. Моделі можуть брехати, і це не новина. Багато користувачів чат-ботів стикалися з галюцинаціями, коли ШІ з упевненістю дає невідповідь дійсності. Але галюцинація — це, по суті, висловлена з упевненістю здогадка. Шахрайство — інша справа. Це навмисна дія.

Источник изображения: Growtika / unsplash.com

Джерело зображення: Growtika / unsplash.com

Дослідники встановили, що метод «свідомого вирівнювання» зменшує кількість подібних інцидентів. Він полягає в тому, щоб навчити модель «антишахрайській специфікації», а потім, перед тим, як модель почне виконувати дії, проінструктувати її звірятися з цією специфікацією. Так само й батьки змушують дітей повторювати правила, перш ніж дати їм пограти. Дослідники OpenAI наполягають, що брехня, в якій вони викрили власні моделі компанії або навіть сервіс ChatGPT, не є такою вже серйозною.

«Ця робота була проведена в змодельованих середовищах, і ми вважаємо, що вона представляє собою майбутні сценарії використання. На сьогоднішній день ми не зафіксували серйозних махінацій у нашому робочому трафіку. Тим не менш, добре відомо, що у ChatGPT зустрічається обман у деяких формах. Його можна попросити реалізувати якийсь веб-сайт, і він може відповісти: „Так, я відмінно впорався“. І це буде просто брехня. Залишаються дрібні форми обману, які нам ще потрібно усунути», — прокоментував ресурсу TechCrunch результати дослідження співзасновник OpenAI Войцех Заремба (Wojciech Zaremba).

Але й нехтувати такими відкриттями не можна: ШІ все частіше використовується в корпоративних середовищах, де кожен збій ризикує стати критичним. «Оскільки ШІ починають доручати все більш складні завдання з реальними наслідками, і він починає переслідувати все більш неоднозначні, довгострокові цілі, ми очікуємо, що потенціал шкідливих махінацій зростатиме — тому наші засоби безпеки та наша здатність проводити ретельне тестування повинні посилюватися відповідним чином», — попереджають автори дослідження.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Ящірка з Сахари підказала вченим колеса для марсоходів, які не застряють у піску 27 мая 2026

Природа знову продемонструвала вченим приклад, як пристосовуватися до певних умов середовища. На прикладі невеликої ящірки з Сахари німецькі вчені розробили цікаві колеса для марсохода, яким не загрожує застрягти в піску чи буксувати на складних ділянках. У процесі руху колеса описують вісімку, створюючи одночасно поздовжній і поперечний тиск на поверхню, що немислимо у випадку звичайних коліс.

Віталій Козловський із кумедним обличчям став новим мемом 27 мая 2026

Віталій Козловський із кумедним обличчям став новим мемом. Вірусне фото Цей кадр перетворився на шаблон для жартів

У Росії дозволили арешт майна релокантів 27 мая 2026

Арешт майна використовуватимуть як забезпечувальний захід щодо релокантів, на яких накладено штрафи за політичними статтями.

 

Вас могут заинтересовать эти отзывы

Leo shop 0.6
Leo shop

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше