22 февраля 2026
Компанія Apple працює над створенням ШІ-агента, який розуміє інтерфейси додатків і може взаємодіяти з ними від імені користувача, працюючи локально на пристрої. Йдеться про алгоритм Ferret-UI Lite з 3 млрд параметрів, який у тестах відповідає або перевершує еталонні показники ШІ-моделей, розміром до 24 разів більших.
Джерело зображення: 9to5mac.com
У грудні 2023 року команда з дев'яти дослідників опублікувала роботу «FERRET: Refer and Ground Anything Anywhere at Any Granularity». У ній вони описали мультимодальну мовну модель, яка може навчатися на різних типах даних і здатна розуміти посилання на природній мові до певних фрагментів зображення. З того часу Apple опублікувала серію статей, розширюючи сімейство ШІ-моделей Ferret, до якого увійшли алгоритми Ferretv2, Ferret-UI та Ferret-UI 2.

Таким чином, моделі Ferret-UI в значній мірі розширили початкові можливості FERRET і були навчены для того, що дослідники зазвичай називають недоліком мультимодальних великих мовних моделей (MLLM). «Недавні досягнення в галузі MLLM заслуговують уваги, однак ці MLLM загального призначення часто не здатні ефективно розпізнавати користувацькі інтерфейси (UI) та взаємодіяти з ними. У цій статті ми представляємо Ferret-UI — нову MLLM, призначену для підвищення якості розпізнавання мобільних UI, оснащену можливостями реферування, граундинга та міркування. Враховуючи, що мобільні інтерфейси зазвичай мають більш витягнуте співвідношення сторін і містять менші елементи (наприклад, значки та текст), ніж природні зображення, ми додали „произвольне разрешение“ поверх Ferret для збільшення деталізації та задіяли покращені візуальні ознаки», — йдеться в статті Apple.

Кілька днів тому Apple розширила сімейство моделей Ferret-UI, а також опублікувала результати дослідження «Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents». Ferret-UI побудована на базі LLM з 13 млрд параметрів, яка зосереджена на розумінні мобільних інтерфейсів і скріншотів з фіксованою роздільною здатністю. Ferret-UI 2 розширила систему для підтримки кількох платформ і сприйняття більш високої роздільної здатності. Водночас Ferret-UI Lite є набагато легшою моделлю, призначеною для роботи на локальному пристрої. При цьому вона зберігає конкурентоспроможність у порівнянні зі значно більшими GUI-агентами.
У публікації дослідників сказано, що «більшість існуючих методів створення GUI-агентів […] фокусуються на великих фундаментальних моделях». Це пов'язано з тим, що «потужні здібності до міркування та планування великих серверних моделей дозволяють таким агентним системам досягати вражаючих результатів у різних завданнях навігації по графічних інтерфейсах».

Зазначається, що було досягнуто великого прогресу як у багатокомпонентних, так і в наскрізних GUI-системах, які використовують різні підходи для оптимізації безлічі завдань, пов'язаних з агентним взаємодією з графічними інтерфейсами (низькорівневе зв'язування з елементами GUI, розуміння того, що відбувається на екрані, багатоетапне планування та самоаналіз). Однак усі вони, по суті, занадто великі та вимогливі до обчислювальних ресурсів, щоб ефективно працювати на локальному пристрої.
Для вирішення цієї проблеми дослідники розробили Ferret-UI Lite, яка є версією Ferret-UI з 3 млрд параметрів, побудованою з «використанням кількох ключових компонентів» і з застосуванням ідей, отриманих під час навчання невеликих LLM.

Ferret-UI Lite використовує реальні та синтетичні навчальні дані з кількох GUI-областей, техніки динамічного кадрування та оптимізацію для підвищення якості розуміння конкретних сегментів графічного інтерфейсу. Також були задіяні методи контрольованої тонкої настройки та навчання з підкріпленням. В результаті вдалося створити ІІ-модель, яка практично відповідає або навіть перевершує конкурентні моделі GUI-агентів, що перевершують її за кількістю параметрів до 24 разів.
Ряд нововведень, включаючи те, що модель сама генерує дані для свого навчання, виглядають цікаво. Дослідники створили мультиагентну систему, яка безпосередньо взаємодіє з реальними GUI-інтерфейсами для масової генерації синтетичних прикладів для свого навчання. Задіяно генератор завдань за програмою навчання, який ставить цілі з поступовою складністю, а агент планування розбиває процес їх досягнення на етапи. Агент прив'язки виконує послідовно всі етапи на екрані, а агент оцінки перевіряє результати.

Такий конвеєр дозволяє навчальній системі улавлювати невизначеність реального взаємодії, включаючи помилки та несподівані стани. Це було б складніше зробити, якби модель навчалася тільки на реальних, розмічених вручну даних. Цікаво, що Ferret-UI та Ferret-UI 2 навчалися на зображеннях інтерфейсів iOS та інших платформ Apple, тоді як Ferret-UI Lite навчалася на зображеннях інтерфейсів Android, веб-додатків і десктопних GUI.
Тестування показало, що Ferret-UI Lite добре справляється з короткостроковими низькорівневими завданнями, але не так успішна у виконанні більш складних багатоетапних завдань. Це є цілком очікуваним компромісом, якщо врахувати обмеження, пов'язані з відносно невеликим розміром моделі, здатної працювати локально на пристрої. З іншого боку, Ferret-UI Lite може забезпечити високий рівень конфіденційності даних, оскільки алгоритм працює локально і не передає дані на сервери Apple.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
За $25 тис. переправляв ухилянтів через кордон: на Київщині викрили організатора "бізнесу" 1 мая 2026
За $25 тис. переправляв ухилянтів через кордон: на Київщині викрили організатора "бізнесу". Фото Підозрюваному загрожує до дев’яти років позбавлення волі
В РФ переробка нафти впала до мінімуму за 17 років 1 мая 2026
Нафтопереробка в РФ скоротилася до 4,69 млн. барелів на день. Порівняно з початком року обсяги впали на 11%, у річному вираженні - на 12%.
У Києві 18-річний хлопець жорстоко побив жінку арматурою, а потім пограбував 1 мая 2026
У Києві 18-річний хлопець жорстоко побив жінку арматурою, а потім пограбував. Подробиці та фото Підозрюваному загрожує до десяти років позбавлення волі