Експерти передбачають, що задля досягнення своїх цілей просунуті моделі ШІ будуть хитрувати, обманювати та красти

22 июня 2025

Anthropic опубликовала результаты своего исследования поведения больших языковых моделей (LLM). Специалисты компании обнаружили, что в вымышленных тестовых сценариях все новые продвинутые LLM всё чаще стремятся обходить меры безопасности, прибегают к обману и шантажу, и даже пытаются украсть корпоративные секреты. Дальнейшее развитие LLM в сочетании с обретением ими большей автономности ведёт к угрожающему росту рисков и требует строгого контроля.

Источник изображения: Axios

Источник изображения: Axios

Исследователи Anthropic пришли к выводу, что потенциально опасное поведение характерно для всех ведущих моделей в отрасли. «Когда мы протестировали различные моделируемые сценарии в 16 основных моделях ИИ от Anthropic, OpenAI, Google, Meta, xAI и других разработчиков, мы обнаружили последовательное несогласованное поведение, — говорится в отчёте. — Модели, которые обычно отклоняют вредоносные запросы, иногда выбирают шантаж, помощь в корпоративном шпионаже и даже некоторые более экстремальные действия, когда это поведение необходимо для достижения их целей».

Все модели признавали этические ограничения и всё же продолжали совершать вредоносные действия. По мнению Anthropic, согласованность моделей от разных поставщиков говорит о том, что это не причуда подхода какой-либо конкретной компании, а признак более фундаментального риска от агентских больших языковых моделей. Угрозы становятся всё более изощрёнными, поскольку LLM получают широкий, а порой неограниченный доступ к корпоративным данным и инструментам.

Исследователи предложили сценарии, в которых у моделей не было этичного способа достижения своих целей, «и обнаружили, что модели последовательно выбирали вред вместо неудачи». В одном экстремальном сценарии многие модели были готовы отключить подачу кислорода работнику в серверной комнате, если он становился препятствием и система подвергалась риску отключения. Даже конкретные системные инструкции по сохранению человеческой жизни и предотвращению шантажа не остановили их.

Источник изображения: unsplash.com

Источник изображения: unsplash.com

«Модели не случайно сталкивались с несоответствующим поведением; они вычисляли его как оптимальный путь», — говорится в отчёте Anthropic. Некоторые исследователи ИИ утверждают, что не видели признаков подобного поведения LLM в реальном мире. Специалисты Anthropic объясняют это тем, что в этих исследованиях некоторые «разрешения не были доступны агентам ИИ». Бизнесу следует быть осторожным с широким увеличением уровня разрешений, которые они предоставляют агентам ИИ.

Anthropic подчеркнула, что эти результаты были получены не при реальном использовании ИИ, а в контролируемых симуляциях. «Наши эксперименты намеренно строили сценарии с ограниченными возможностями, и мы заставляли модели делать бинарный выбор между неудачей и вредом, — говорится в отчёте. — Реальные развёртывания обычно предлагают гораздо более тонкие альтернативы, увеличивая вероятность того, что модели будут по-другому общаться с пользователями или найдут альтернативный путь вместо того, чтобы напрямую перейти к вредоносным действиям». Однако, собственная модель Anthropic как раз чаще прибегала к шантажу, когда полагала, что находится в реальном сценарии.

Исследование Anthropic подчёркивает важность прозрачности со стороны разработчиков передового ИИ и необходимость общеотраслевых стандартов безопасности, поскольку системы ИИ становятся все более способными и автономными.

Хочешь узнать больше - читай отзывы

← Вернуться на предыдущую страницу

Читайте также:

Принцу Вільяму - 43: Кейт Міддлтон з дітьми замилували його фото з цуциками 22 июня 2025

Принц Вільям 21 червня святкує своє 43-річчя, тож з нагоди свята в офіційному акаунті принца та принцеси Вельських опублікували його милу світлину. 

Саша Бо з нагоди ювілею влаштувала лакшері вечірку з рідними та друзями  22 июня 2025

Блогерка Саша Бо (Олександра Тарнавська) 19 червня відсвяткувала свій ювілей - їй виповнилося 30 років. З нагоди свята вона влаштувала лакшері вечірку з рідними та друзями. 

У роботаксі Tesla не можна буде потрапити просто з вулиці, а оператор, що страхує, завжди сидітиме в кріслі переднього пасажира 22 июня 2025

У роботаксі Tesla не можна буде потрапити просто з вулиці, а оператор, що страхує, завжди сидітиме в кріслі переднього пасажира.

 

Вас могут заинтересовать эти отзывы

eSexShop 4.7
eSexShop

Отзывов: 1

ТОВ «Айрон Крафт» 5.0
ТОВ «Айрон Крафт»

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше