21 февраля 2026
Microsoft Research та Salesforce проаналізували понад 200 000 діалогів з передовими моделями ШІ, включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 та Llama 4. Результати показали, що всі вони часто «втрачаються в розмові», якщо вона розбивається на природні багатоходові діалоги з обміном репліками. Для співрозмовника чат-ботів це виглядає як поступове «оглуплення» моделі, що супроводжується галюцинаціями та відверто неправильними відповідями.
Джерело зображення: unsplash.com
Вчені стверджують, що моделі ШІ, такі як GPT-4.1 та Gemini 2.5 Pro, досягають 90 % точних відповідей при обробці окремих запитів. Однак їхня продуктивність падає приблизно до 65 % під час більш тривалих діалогів з обміном численними репліками. Причому моделі схильні використовувати свою первісну відповідь як основу для відповіді на наступні запитання, навіть якщо вона була неправильною.
Дослідники виявили ще одне цікаве явище — роздування відповідей. Відповіді та реакції моделей ставали на 20–300 % довшими під час участі в багатоходових діалогах. Більш довгі відповіді на запити призводили до більшої кількості припущень і ілюзій, які потім використовувалися моделями як постійний контекст у розмові.
Хоча такі моделі, як o3 від OpenAI та DeepSeek R1, мають додаткові «токени мислення», вони не змогли вибратися з цієї дивної ситуації. Дослідники підкреслили, що надійність LLM знизилася на 112 %. Це пояснюється схильністю моделей до передчасної генерації — вони намагаються запропонувати відповідь на запит, не дочитавши його до кінця.
Стає очевидним, що ШІ ще не досяг свого піку, стикаючись з такими критичними проблемами, як низька надійність під час участі в багатоходових діалогах. Тим не менш, ставлення користувачів до ШІ-сервісів швидко змінюється, особливо з появою таких інструментів, як «ШІ-огляди Google». Слід зазначити, що відмова від традиційних пошукових систем на користь інструментів на основі ШІ — це великий ризик, оскільки згенерована інформація може виявитися недостовірною.
Деякий час тому Microsoft звинуватила користувачів у неправильному використанні ШІ, заявивши про низький рівень інженерних навичок при розробці підказок. Можливо, саме дурні запитання та погані підказки від «шкіряних мішків» не дають моделям штучного інтелекту проявити себе у всій красі?
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
«Блокнот» все більше перетворюється на WordPad — тепер Microsoft додала підтримку зображень 21 февраля 2026
Видання Windows Latest повідомило, що Microsoft додає підтримку зображень у «Блокнот» для Windows 11. Поінформовані джерела повідомляють, що ця функція стане частиною вже впровадженої підтримки форматування тексту і матиме «мінімальний вплив» на продуктивність. Користувачі зможуть вимкнути її в налаштуваннях програми.
MIRAGE: як підняти середній чек у бюджетному сегменті 21 февраля 2026
Як зробити Mirage прибутковим: логічна матриця, фокус на комплектах, сезонні хвилі, глибина складу й продаж через сервіс, а не ціну.
В Європі визначили фаворита автолюбителів 21 февраля 2026
В Європі визначили фаворита автолюбителів