12 мая 2026
Дослідники Microsoft встановили, що навіть найсучасніші ШІ-моделі допускають суттєві помилки під час виконання тривалих багатоетапних завдань. У ході тестування такі провідні моделі, як Gemini 3.1 Pro, Claude 4.6 Opus та GPT 5.4, втратили в середньому 25 % змісту документів, які були делеговані їм для автономної роботи.
Джерело зображення: AI
Команда Філіппа Лабана (Philippe Laban), Тобіаса Шнабеля (Tobias Schnabel) та Дженніфер Невілл (Jennifer Neville) з Microsoft Research розробила бенчмарк DELEGATE-52, який імітує робочі процеси в 52 професійних сферах, наприклад, у написанні коду, нотному запису чи кристалографії. Моделі оцінювалися за здатністю зберігати цілісність документів після 20 циклів обробки, при цьому порогом готовності вважався результат не нижче 98 %.
Результати показали, що моделі краще справлялися із завданнями програмування і гірше — з обробкою природної мови. Пошкодження документів і, відповідно, зниження оцінки до 80 % і нижче, сталося більш ніж у 80 % комбінацій. Найкраща з протестованих моделей, якою виявилася Google Gemini 3.1 Pro, відповідала критеріям готовності лише в 11 з 52 областей.
При цьому помилки виникали не поступово, а стрибкоподібно, наприклад, за один цикл взаємодії модель могла втратити від 10 до 30 балів. Більш досконалі моделі (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) уникали дрібних помилок завдяки тому, що відкладали їх обробку на більш пізні етапи при меншій кількості взаємодій. Одночасно з'ясувалося, що під час роботи ШІ-моделей з доступом до інструментів у режимі агентського управління їхні результати не лише не покращувалися, але навіть погіршувалися до кінця циклу в середньому на 6 %.
За словами вчених, користувачам все ще необхідно уважно контролювати роботу ШІ-систем при делегуванні їм повноважень, оскільки поточні моделі готові до автономної роботи лише в вузьких сферах. При цьому автори бенчмарка визнають прогрес LLM і зазначають, що, наприклад, сімейство ШІ-моделей OpenAI за 16 місяців покращило показники продуктивності з 14,7 % до 71,5 %.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Кошовий розказав про навчання старшої дочки за кордоном 11 мая 2026
Шоумен розказав, коли його старша донька Варвара вирушила на навчання до Італії
Індія випробувала ракету, яка може одночасно атакувати кілька цілей 11 мая 2026
Балістична ракета Agni має технологію MIRV, яка дозволяє одній ракеті доставляти кілька окремих боєголовок.
Під Києвом п’яний водій виїхав на зустрічну смугу та влаштував масову ДТП: є постраждалі 11 мая 2026
Під Києвом п’яний водій виїхав на зустрічну смугу та влаштував масову ДТП: є постраждалі. Фото Усі обставини аварії встановлять слідчі