ТОнеТО | Інтелектуальні боти втрачають ефективність при тривалому спілкуванні з людиною | Новости про товары, услуги, компании, технологии

Інтелектуальні боти втрачають ефективність при тривалому спілкуванні з людиною

21 февраля 2026

Microsoft Research та Salesforce проаналізували понад 200 000 діалогів з передовими моделями ШІ, включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 та Llama 4. Результати показали, що всі вони часто «втрачаються в розмові», якщо вона розбивається на природні багатоходові діалоги з обміном репліками. Для співрозмовника чат-ботів це виглядає як поступове «оглуплення» моделі, що супроводжується галюцинаціями та відверто неправильними відповідями.

Джерело зображення: unsplash.com

Вчені стверджують, що моделі ШІ, такі як GPT-4.1 та Gemini 2.5 Pro, досягають 90 % точних відповідей при обробці окремих запитів. Однак їхня продуктивність падає приблизно до 65 % під час більш тривалих діалогів з обміном численними репліками. Причому моделі схильні використовувати свою первісну відповідь як основу для відповіді на наступні запитання, навіть якщо вона була неправильною.

Дослідники виявили ще одне цікаве явище — роздування відповідей. Відповіді та реакції моделей ставали на 20–300 % довшими під час участі в багатоходових діалогах. Більш довгі відповіді на запити призводили до більшої кількості припущень і ілюзій, які потім використовувалися моделями як постійний контекст у розмові.

Хоча такі моделі, як o3 від OpenAI та DeepSeek R1, мають додаткові «токени мислення», вони не змогли вибратися з цієї дивної ситуації. Дослідники підкреслили, що надійність LLM знизилася на 112 %. Це пояснюється схильністю моделей до передчасної генерації — вони намагаються запропонувати відповідь на запит, не дочитавши його до кінця.

Стає очевидним, що ШІ ще не досяг свого піку, стикаючись з такими критичними проблемами, як низька надійність під час участі в багатоходових діалогах. Тим не менш, ставлення користувачів до ШІ-сервісів швидко змінюється, особливо з появою таких інструментів, як «ШІ-огляди Google». Слід зазначити, що відмова від традиційних пошукових систем на користь інструментів на основі ШІ — це великий ризик, оскільки згенерована інформація може виявитися недостовірною.

Деякий час тому Microsoft звинуватила користувачів у неправильному використанні ШІ, заявивши про низький рівень інженерних навичок при розробці підказок. Можливо, саме дурні запитання та погані підказки від «шкіряних мішків» не дають моделям штучного інтелекту проявити себе у всій красі?

Выберите область поиска

Інтелектуальні боти втрачають ефективність при тривалому спілкуванні з людиною

Читайте также:

Вас могут заинтересовать эти отзывы

Удалить фото?

Фото удалено

Выберите область поиска