OpenAI звинуватила ШІ в навмисній брехні — повністю подолати це поки не вдається

19 сентября 2025

OpenAI опублікувала результати дослідження, в якому описала своє протистояння шахрайству у моделях штучного інтелекту. Виникає ситуація, коли «ШІ певним чином поводиться на поверхні, приховуючи свої справжні цілі», — пояснили в компанії.

Источник изображения: Mariia Shalabaieva / unsplash.com

Джерело зображення: Mariia Shalabaieva / unsplash.com

У матеріалі, підготовленому спільно з дослідницькою організацією Apollo Research, такі механізми змови порівнюються з діями біржового маклера, який порушує закон, щоб отримати максимальний прибуток. У більшості випадків така поведінка ШІ поки що переважно безпечна. «Найбільш часті збої пов'язані з простими формами обману — наприклад, коли модель робить вигляд, що виконала завдання, не виконуючи його насправді», — пишуть дослідники. Ефективним засобом проти таких неполадок є метод «свідомого вирівнювання». Але способу навчити модель таким чином, щоб вона зовсім перестала шахраювати, вчені не знайшли — і навіть навпаки, в такому випадку вона починає шахраювати ще витонченіше, щоб її не викрили.

Що дивно, модель розуміє, коли щодо неї проводять перевірку, і може почати робити вигляд, що перестала шахраювати, щоб пройти тест — але при цьому продовжувати хитрувати. «Часто моделі краще усвідомлюють, що їх оцінюють. Ця ситуаційна обізнаність може сама по собі ослабити спроби шахрайства незалежно від справжнього вирівнювання», — повідомляють автори проєкту. Моделі можуть брехати, і це не новина. Багато користувачів чат-ботів стикалися з галюцинаціями, коли ШІ з упевненістю дає невідповідь дійсності. Але галюцинація — це, по суті, висловлена з упевненістю здогадка. Шахрайство — інша справа. Це навмисна дія.

Источник изображения: Growtika / unsplash.com

Джерело зображення: Growtika / unsplash.com

Дослідники встановили, що метод «свідомого вирівнювання» зменшує кількість подібних інцидентів. Він полягає в тому, щоб навчити модель «антишахрайській специфікації», а потім, перед тим, як модель почне виконувати дії, проінструктувати її звірятися з цією специфікацією. Так само й батьки змушують дітей повторювати правила, перш ніж дати їм пограти. Дослідники OpenAI наполягають, що брехня, в якій вони викрили власні моделі компанії або навіть сервіс ChatGPT, не є такою вже серйозною.

«Ця робота була проведена в змодельованих середовищах, і ми вважаємо, що вона представляє собою майбутні сценарії використання. На сьогоднішній день ми не зафіксували серйозних махінацій у нашому робочому трафіку. Тим не менш, добре відомо, що у ChatGPT зустрічається обман у деяких формах. Його можна попросити реалізувати якийсь веб-сайт, і він може відповісти: „Так, я відмінно впорався“. І це буде просто брехня. Залишаються дрібні форми обману, які нам ще потрібно усунути», — прокоментував ресурсу TechCrunch результати дослідження співзасновник OpenAI Войцех Заремба (Wojciech Zaremba).

Але й нехтувати такими відкриттями не можна: ШІ все частіше використовується в корпоративних середовищах, де кожен збій ризикує стати критичним. «Оскільки ШІ починають доручати все більш складні завдання з реальними наслідками, і він починає переслідувати все більш неоднозначні, довгострокові цілі, ми очікуємо, що потенціал шкідливих махінацій зростатиме — тому наші засоби безпеки та наша здатність проводити ретельне тестування повинні посилюватися відповідним чином», — попереджають автори дослідження.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Росія передала КНДР технології для атомних підводних човнів - ЗМІ 19 сентября 2025

Росія передала КНДР технології для атомних підводних човнів - ЗМІ

Кайлі Дженнер в рожевому латексі попозувала для спокусливих фото 19 сентября 2025

Косметична магнатка-мільярдерка Кайлі Дженнер похвалилася новими речами свого модного бренду.

Британія запустить портал для залучення шпигунів на території Росії 19 сентября 2025

Захищена платформа для обміну повідомленнями Silent Courier має на меті посилити нацбезпеку, заявили в британському МЗС.

 

Вас могут заинтересовать эти отзывы

Fitness Expert 5.0
Fitness Expert

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше