Інтелектуальні боти втрачають ефективність при тривалому спілкуванні з людиною

21 февраля 2026

Microsoft Research та Salesforce проаналізували понад 200 000 діалогів з передовими моделями ШІ, включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 та Llama 4. Результати показали, що всі вони часто «втрачаються в розмові», якщо вона розбивається на природні багатоходові діалоги з обміном репліками. Для співрозмовника чат-ботів це виглядає як поступове «оглуплення» моделі, що супроводжується галюцинаціями та відверто неправильними відповідями.

Источник изображения: unsplash.com

Джерело зображення: unsplash.com

Вчені стверджують, що моделі ШІ, такі як GPT-4.1 та Gemini 2.5 Pro, досягають 90 % точних відповідей при обробці окремих запитів. Однак їхня продуктивність падає приблизно до 65 % під час більш тривалих діалогів з обміном численними репліками. Причому моделі схильні використовувати свою первісну відповідь як основу для відповіді на наступні запитання, навіть якщо вона була неправильною.

Дослідники виявили ще одне цікаве явище — роздування відповідей. Відповіді та реакції моделей ставали на 20–300 % довшими під час участі в багатоходових діалогах. Більш довгі відповіді на запити призводили до більшої кількості припущень і ілюзій, які потім використовувалися моделями як постійний контекст у розмові.

Хоча такі моделі, як o3 від OpenAI та DeepSeek R1, мають додаткові «токени мислення», вони не змогли вибратися з цієї дивної ситуації. Дослідники підкреслили, що надійність LLM знизилася на 112 %. Це пояснюється схильністю моделей до передчасної генерації — вони намагаються запропонувати відповідь на запит, не дочитавши його до кінця.

Стає очевидним, що ШІ ще не досяг свого піку, стикаючись з такими критичними проблемами, як низька надійність під час участі в багатоходових діалогах. Тим не менш, ставлення користувачів до ШІ-сервісів швидко змінюється, особливо з появою таких інструментів, як «ШІ-огляди Google». Слід зазначити, що відмова від традиційних пошукових систем на користь інструментів на основі ШІ — це великий ризик, оскільки згенерована інформація може виявитися недостовірною.

Деякий час тому Microsoft звинуватила користувачів у неправильному використанні ШІ, заявивши про низький рівень інженерних навичок при розробці підказок. Можливо, саме дурні запитання та погані підказки від «шкіряних мішків» не дають моделям штучного інтелекту проявити себе у всій красі?

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Насіння, яке зменшує запалення та очищає кишківник 25 мая 2026

Насіння льону володіє багатьма перевагами.

Перша жінка-тайконавт з Гонконгу вирушить на китайську космічну станцію 24 мая 2026

Новим членом екіпажу на китайській космічній станції «Тяньгун» (Tiangong) стане перша жінка-тайконавт з Гонконгу — колишня співробітниця поліції з докторським ступенем у галузі комп'ютерної криміналістики. Про це повідомило агентство Bloomberg з посиланням на китайські ЗМІ.

Простий напій, котрий допомагає виводити токсини через нирки 24 мая 2026

Так, це робить чиста питна вода.

 

Вас могут заинтересовать эти отзывы

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше