Експерти передбачають, що задля досягнення своїх цілей просунуті моделі ШІ будуть хитрувати, обманювати та красти

22 июня 2025

Anthropic опубликовала результаты своего исследования поведения больших языковых моделей (LLM). Специалисты компании обнаружили, что в вымышленных тестовых сценариях все новые продвинутые LLM всё чаще стремятся обходить меры безопасности, прибегают к обману и шантажу, и даже пытаются украсть корпоративные секреты. Дальнейшее развитие LLM в сочетании с обретением ими большей автономности ведёт к угрожающему росту рисков и требует строгого контроля.

Источник изображения: Axios

Источник изображения: Axios

Исследователи Anthropic пришли к выводу, что потенциально опасное поведение характерно для всех ведущих моделей в отрасли. «Когда мы протестировали различные моделируемые сценарии в 16 основных моделях ИИ от Anthropic, OpenAI, Google, Meta, xAI и других разработчиков, мы обнаружили последовательное несогласованное поведение, — говорится в отчёте. — Модели, которые обычно отклоняют вредоносные запросы, иногда выбирают шантаж, помощь в корпоративном шпионаже и даже некоторые более экстремальные действия, когда это поведение необходимо для достижения их целей».

Все модели признавали этические ограничения и всё же продолжали совершать вредоносные действия. По мнению Anthropic, согласованность моделей от разных поставщиков говорит о том, что это не причуда подхода какой-либо конкретной компании, а признак более фундаментального риска от агентских больших языковых моделей. Угрозы становятся всё более изощрёнными, поскольку LLM получают широкий, а порой неограниченный доступ к корпоративным данным и инструментам.

Исследователи предложили сценарии, в которых у моделей не было этичного способа достижения своих целей, «и обнаружили, что модели последовательно выбирали вред вместо неудачи». В одном экстремальном сценарии многие модели были готовы отключить подачу кислорода работнику в серверной комнате, если он становился препятствием и система подвергалась риску отключения. Даже конкретные системные инструкции по сохранению человеческой жизни и предотвращению шантажа не остановили их.

Источник изображения: unsplash.com

Источник изображения: unsplash.com

«Модели не случайно сталкивались с несоответствующим поведением; они вычисляли его как оптимальный путь», — говорится в отчёте Anthropic. Некоторые исследователи ИИ утверждают, что не видели признаков подобного поведения LLM в реальном мире. Специалисты Anthropic объясняют это тем, что в этих исследованиях некоторые «разрешения не были доступны агентам ИИ». Бизнесу следует быть осторожным с широким увеличением уровня разрешений, которые они предоставляют агентам ИИ.

Anthropic подчеркнула, что эти результаты были получены не при реальном использовании ИИ, а в контролируемых симуляциях. «Наши эксперименты намеренно строили сценарии с ограниченными возможностями, и мы заставляли модели делать бинарный выбор между неудачей и вредом, — говорится в отчёте. — Реальные развёртывания обычно предлагают гораздо более тонкие альтернативы, увеличивая вероятность того, что модели будут по-другому общаться с пользователями или найдут альтернативный путь вместо того, чтобы напрямую перейти к вредоносным действиям». Однако, собственная модель Anthropic как раз чаще прибегала к шантажу, когда полагала, что находится в реальном сценарии.

Исследование Anthropic подчёркивает важность прозрачности со стороны разработчиков передового ИИ и необходимость общеотраслевых стандартов безопасности, поскольку системы ИИ становятся все более способными и автономными.

Хочешь узнать больше - читай отзывы

← Вернуться на предыдущую страницу

Читайте также:

Роналду похизувався рельєфним тілом у самих боксерах. Фото 20 декабря 2025

40-річний капітан та нападник саудівського клубу "Ан-Наср" і збірної Португалії з футболу Кріштіану Роналду вразив шанувальників новим фото свого тіла.

Навроцький заявив про "погану новину" для Росії 20 декабря 2025

Кароль Навроцький назвав Росію неоімперською пострадянською державою, яка загрожує Європі.

Полякова у спокусливих луках вдала з себе сніжинку в новорічному кліпі 20 декабря 2025

46-річна співачка Оля Полякова потішила шанувальників новорічною музичною новинкою, яка отримала назву "Жінка Сніжинка".

 

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше