ТОнеТО | Дослідники Microsoft попередили, що ШІ-моделі поки що не готові до складного класу завдань | Новости про товары, услуги, компании, технологии

Дослідники Microsoft попередили, що ШІ-моделі поки що не готові до складного класу завдань

12 мая 2026

Дослідники Microsoft встановили, що навіть найсучасніші ШІ-моделі допускають суттєві помилки під час виконання тривалих багатоетапних завдань. У ході тестування такі провідні моделі, як Gemini 3.1 Pro, Claude 4.6 Opus та GPT 5.4, втратили в середньому 25 % змісту документів, які були делеговані їм для автономної роботи.

Джерело зображення: AI

Команда Філіппа Лабана (Philippe Laban), Тобіаса Шнабеля (Tobias Schnabel) та Дженніфер Невілл (Jennifer Neville) з Microsoft Research розробила бенчмарк DELEGATE-52, який імітує робочі процеси в 52 професійних сферах, наприклад, у написанні коду, нотному запису чи кристалографії. Моделі оцінювалися за здатністю зберігати цілісність документів після 20 циклів обробки, при цьому порогом готовності вважався результат не нижче 98 %.

Результати показали, що моделі краще справлялися із завданнями програмування і гірше — з обробкою природної мови. Пошкодження документів і, відповідно, зниження оцінки до 80 % і нижче, сталося більш ніж у 80 % комбінацій. Найкраща з протестованих моделей, якою виявилася Google Gemini 3.1 Pro, відповідала критеріям готовності лише в 11 з 52 областей.

При цьому помилки виникали не поступово, а стрибкоподібно, наприклад, за один цикл взаємодії модель могла втратити від 10 до 30 балів. Більш досконалі моделі (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) уникали дрібних помилок завдяки тому, що відкладали їх обробку на більш пізні етапи при меншій кількості взаємодій. Одночасно з'ясувалося, що під час роботи ШІ-моделей з доступом до інструментів у режимі агентського управління їхні результати не лише не покращувалися, але навіть погіршувалися до кінця циклу в середньому на 6 %.

За словами вчених, користувачам все ще необхідно уважно контролювати роботу ШІ-систем при делегуванні їм повноважень, оскільки поточні моделі готові до автономної роботи лише в вузьких сферах. При цьому автори бенчмарка визнають прогрес LLM і зазначають, що, наприклад, сімейство ШІ-моделей OpenAI за 16 місяців покращило показники продуктивності з 14,7 % до 71,5 %.

Выберите область поиска

Дослідники Microsoft попередили, що ШІ-моделі поки що не готові до складного класу завдань

Читайте также:

Вас могут заинтересовать эти отзывы

Удалить фото?

Фото удалено

Выберите область поиска