12 мая 2026
Дослідники Microsoft встановили, що навіть найсучасніші ШІ-моделі допускають суттєві помилки під час виконання тривалих багатоетапних завдань. У ході тестування такі провідні моделі, як Gemini 3.1 Pro, Claude 4.6 Opus та GPT 5.4, втратили в середньому 25 % змісту документів, які були делеговані їм для автономної роботи.
Джерело зображення: AI
Команда Філіппа Лабана (Philippe Laban), Тобіаса Шнабеля (Tobias Schnabel) та Дженніфер Невілл (Jennifer Neville) з Microsoft Research розробила бенчмарк DELEGATE-52, який імітує робочі процеси в 52 професійних сферах, наприклад, у написанні коду, нотному запису чи кристалографії. Моделі оцінювалися за здатністю зберігати цілісність документів після 20 циклів обробки, при цьому порогом готовності вважався результат не нижче 98 %.
Результати показали, що моделі краще справлялися із завданнями програмування і гірше — з обробкою природної мови. Пошкодження документів і, відповідно, зниження оцінки до 80 % і нижче, сталося більш ніж у 80 % комбінацій. Найкраща з протестованих моделей, якою виявилася Google Gemini 3.1 Pro, відповідала критеріям готовності лише в 11 з 52 областей.
При цьому помилки виникали не поступово, а стрибкоподібно, наприклад, за один цикл взаємодії модель могла втратити від 10 до 30 балів. Більш досконалі моделі (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) уникали дрібних помилок завдяки тому, що відкладали їх обробку на більш пізні етапи при меншій кількості взаємодій. Одночасно з'ясувалося, що під час роботи ШІ-моделей з доступом до інструментів у режимі агентського управління їхні результати не лише не покращувалися, але навіть погіршувалися до кінця циклу в середньому на 6 %.
За словами вчених, користувачам все ще необхідно уважно контролювати роботу ШІ-систем при делегуванні їм повноважень, оскільки поточні моделі готові до автономної роботи лише в вузьких сферах. При цьому автори бенчмарка визнають прогрес LLM і зазначають, що, наприклад, сімейство ШІ-моделей OpenAI за 16 місяців покращило показники продуктивності з 14,7 % до 71,5 %.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Найкращий монітор за версією Consumer Reports коштує всього 200 доларів 4 июня 2026
Найкращий монітор за версією Consumer Reports коштує всього 200 доларів
Мерц закликав Мадяра не заважати євроінтеграції України 3 июня 2026
Єдність Євросоюзу є ключовою відповіддю на російську агресію, наголосив німецький канцлер.
Google дозволить виключати сайти з ШІ-пошуку без втрати позицій у видачі 3 июня 2026
Google надасть власникам сайтів можливість визначати, чи будуть їхні ресурси відображатися та використовуватися в «Режимі ШІ» та «Оглядах від ШІ» незалежно від традиційних результатів пошуку, повідомили в компанії.