Інтелектуальні боти втрачають ефективність при тривалому спілкуванні з людиною

21 февраля 2026

Microsoft Research та Salesforce проаналізували понад 200 000 діалогів з передовими моделями ШІ, включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 та Llama 4. Результати показали, що всі вони часто «втрачаються в розмові», якщо вона розбивається на природні багатоходові діалоги з обміном репліками. Для співрозмовника чат-ботів це виглядає як поступове «оглуплення» моделі, що супроводжується галюцинаціями та відверто неправильними відповідями.

Источник изображения: unsplash.com

Джерело зображення: unsplash.com

Вчені стверджують, що моделі ШІ, такі як GPT-4.1 та Gemini 2.5 Pro, досягають 90 % точних відповідей при обробці окремих запитів. Однак їхня продуктивність падає приблизно до 65 % під час більш тривалих діалогів з обміном численними репліками. Причому моделі схильні використовувати свою первісну відповідь як основу для відповіді на наступні запитання, навіть якщо вона була неправильною.

Дослідники виявили ще одне цікаве явище — роздування відповідей. Відповіді та реакції моделей ставали на 20–300 % довшими під час участі в багатоходових діалогах. Більш довгі відповіді на запити призводили до більшої кількості припущень і ілюзій, які потім використовувалися моделями як постійний контекст у розмові.

Хоча такі моделі, як o3 від OpenAI та DeepSeek R1, мають додаткові «токени мислення», вони не змогли вибратися з цієї дивної ситуації. Дослідники підкреслили, що надійність LLM знизилася на 112 %. Це пояснюється схильністю моделей до передчасної генерації — вони намагаються запропонувати відповідь на запит, не дочитавши його до кінця.

Стає очевидним, що ШІ ще не досяг свого піку, стикаючись з такими критичними проблемами, як низька надійність під час участі в багатоходових діалогах. Тим не менш, ставлення користувачів до ШІ-сервісів швидко змінюється, особливо з появою таких інструментів, як «ШІ-огляди Google». Слід зазначити, що відмова від традиційних пошукових систем на користь інструментів на основі ШІ — це великий ризик, оскільки згенерована інформація може виявитися недостовірною.

Деякий час тому Microsoft звинуватила користувачів у неправильному використанні ШІ, заявивши про низький рівень інженерних навичок при розробці підказок. Можливо, саме дурні запитання та погані підказки від «шкіряних мішків» не дають моделям штучного інтелекту проявити себе у всій красі?

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

«Блокнот» все більше перетворюється на WordPad — тепер Microsoft додала підтримку зображень 21 февраля 2026

Видання Windows Latest повідомило, що Microsoft додає підтримку зображень у «Блокнот» для Windows 11. Поінформовані джерела повідомляють, що ця функція стане частиною вже впровадженої підтримки форматування тексту і матиме «мінімальний вплив» на продуктивність. Користувачі зможуть вимкнути її в налаштуваннях програми.

MIRAGE: як підняти середній чек у бюджетному сегменті 21 февраля 2026

Як зробити Mirage прибутковим: логічна матриця, фокус на комплектах, сезонні хвилі, глибина складу й продаж через сервіс, а не ціну.

В Європі визначили фаворита автолюбителів 21 февраля 2026

В Європі визначили фаворита автолюбителів

 

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше