Експерти передбачають, що задля досягнення своїх цілей просунуті моделі ШІ будуть хитрувати, обманювати та красти

22 июня 2025

Anthropic опубликовала результаты своего исследования поведения больших языковых моделей (LLM). Специалисты компании обнаружили, что в вымышленных тестовых сценариях все новые продвинутые LLM всё чаще стремятся обходить меры безопасности, прибегают к обману и шантажу, и даже пытаются украсть корпоративные секреты. Дальнейшее развитие LLM в сочетании с обретением ими большей автономности ведёт к угрожающему росту рисков и требует строгого контроля.

Источник изображения: Axios

Источник изображения: Axios

Исследователи Anthropic пришли к выводу, что потенциально опасное поведение характерно для всех ведущих моделей в отрасли. «Когда мы протестировали различные моделируемые сценарии в 16 основных моделях ИИ от Anthropic, OpenAI, Google, Meta, xAI и других разработчиков, мы обнаружили последовательное несогласованное поведение, — говорится в отчёте. — Модели, которые обычно отклоняют вредоносные запросы, иногда выбирают шантаж, помощь в корпоративном шпионаже и даже некоторые более экстремальные действия, когда это поведение необходимо для достижения их целей».

Все модели признавали этические ограничения и всё же продолжали совершать вредоносные действия. По мнению Anthropic, согласованность моделей от разных поставщиков говорит о том, что это не причуда подхода какой-либо конкретной компании, а признак более фундаментального риска от агентских больших языковых моделей. Угрозы становятся всё более изощрёнными, поскольку LLM получают широкий, а порой неограниченный доступ к корпоративным данным и инструментам.

Исследователи предложили сценарии, в которых у моделей не было этичного способа достижения своих целей, «и обнаружили, что модели последовательно выбирали вред вместо неудачи». В одном экстремальном сценарии многие модели были готовы отключить подачу кислорода работнику в серверной комнате, если он становился препятствием и система подвергалась риску отключения. Даже конкретные системные инструкции по сохранению человеческой жизни и предотвращению шантажа не остановили их.

Источник изображения: unsplash.com

Источник изображения: unsplash.com

«Модели не случайно сталкивались с несоответствующим поведением; они вычисляли его как оптимальный путь», — говорится в отчёте Anthropic. Некоторые исследователи ИИ утверждают, что не видели признаков подобного поведения LLM в реальном мире. Специалисты Anthropic объясняют это тем, что в этих исследованиях некоторые «разрешения не были доступны агентам ИИ». Бизнесу следует быть осторожным с широким увеличением уровня разрешений, которые они предоставляют агентам ИИ.

Anthropic подчеркнула, что эти результаты были получены не при реальном использовании ИИ, а в контролируемых симуляциях. «Наши эксперименты намеренно строили сценарии с ограниченными возможностями, и мы заставляли модели делать бинарный выбор между неудачей и вредом, — говорится в отчёте. — Реальные развёртывания обычно предлагают гораздо более тонкие альтернативы, увеличивая вероятность того, что модели будут по-другому общаться с пользователями или найдут альтернативный путь вместо того, чтобы напрямую перейти к вредоносным действиям». Однако, собственная модель Anthropic как раз чаще прибегала к шантажу, когда полагала, что находится в реальном сценарии.

Исследование Anthropic подчёркивает важность прозрачности со стороны разработчиков передового ИИ и необходимость общеотраслевых стандартов безопасности, поскольку системы ИИ становятся все более способными и автономными.

Хочешь узнать больше - читай отзывы

← Вернуться на предыдущую страницу

Читайте также:

«Джеймс Вебб» у всій красі показав причудливу туманність «Відкритий череп» 26 февраля 2026

Незвичайний випадок, коли одна голова добре, а дві краще: космічний телескоп «Джеймс Вебб» зробив два знімки «голови» далекої туманності з промовистим прізвиськом «Відкритий череп». Знімки отримані в ближньому та середньому інфрачервоних діапазонах, що дає можливість розглянути максимум деталей об'єкта. Це перший настільки детальний знімок цієї туманності, що вчені вже вишикувалися в чергу за доступом до нього.

Анджеліна Джолі розкрила світу очі на війну в Україні та нагадала жахливу статистику 26 февраля 2026

Анджеліна Джолі розкрила світу очі на війну в Україні та нагадала жахливу статистику Акторка нагадала про звірства РФ

Путін доручив ФСБ провести "зачистки" перед виборами - розвідка 26 февраля 2026

Путін наголосив на необхідності суворої координації ФСБ з іншими силовими структурами для боротьби з внутрішніми загрозами.

 

Вас могут заинтересовать эти отзывы

анета  
анета

Отзывов: 1

Ольга Ясновидиця  
Ольга Ясновидиця

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше