22 февраля 2026
Компанія Apple працює над створенням ШІ-агента, який розуміє інтерфейси додатків і може взаємодіяти з ними від імені користувача, працюючи локально на пристрої. Йдеться про алгоритм Ferret-UI Lite з 3 млрд параметрів, який у тестах відповідає або перевершує еталонні показники ШІ-моделей, розміром до 24 разів більших.
Джерело зображення: 9to5mac.com
У грудні 2023 року команда з дев'яти дослідників опублікувала роботу «FERRET: Refer and Ground Anything Anywhere at Any Granularity». У ній вони описали мультимодальну мовну модель, яка може навчатися на різних типах даних і здатна розуміти посилання на природній мові до певних фрагментів зображення. З того часу Apple опублікувала серію статей, розширюючи сімейство ШІ-моделей Ferret, до якого увійшли алгоритми Ferretv2, Ferret-UI та Ferret-UI 2.

Таким чином, моделі Ferret-UI в значній мірі розширили початкові можливості FERRET і були навчены для того, що дослідники зазвичай називають недоліком мультимодальних великих мовних моделей (MLLM). «Недавні досягнення в галузі MLLM заслуговують уваги, однак ці MLLM загального призначення часто не здатні ефективно розпізнавати користувацькі інтерфейси (UI) та взаємодіяти з ними. У цій статті ми представляємо Ferret-UI — нову MLLM, призначену для підвищення якості розпізнавання мобільних UI, оснащену можливостями реферування, граундинга та міркування. Враховуючи, що мобільні інтерфейси зазвичай мають більш витягнуте співвідношення сторін і містять менші елементи (наприклад, значки та текст), ніж природні зображення, ми додали „произвольне разрешение“ поверх Ferret для збільшення деталізації та задіяли покращені візуальні ознаки», — йдеться в статті Apple.

Кілька днів тому Apple розширила сімейство моделей Ferret-UI, а також опублікувала результати дослідження «Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents». Ferret-UI побудована на базі LLM з 13 млрд параметрів, яка зосереджена на розумінні мобільних інтерфейсів і скріншотів з фіксованою роздільною здатністю. Ferret-UI 2 розширила систему для підтримки кількох платформ і сприйняття більш високої роздільної здатності. Водночас Ferret-UI Lite є набагато легшою моделлю, призначеною для роботи на локальному пристрої. При цьому вона зберігає конкурентоспроможність у порівнянні зі значно більшими GUI-агентами.
У публікації дослідників сказано, що «більшість існуючих методів створення GUI-агентів […] фокусуються на великих фундаментальних моделях». Це пов'язано з тим, що «потужні здібності до міркування та планування великих серверних моделей дозволяють таким агентним системам досягати вражаючих результатів у різних завданнях навігації по графічних інтерфейсах».

Зазначається, що було досягнуто великого прогресу як у багатокомпонентних, так і в наскрізних GUI-системах, які використовують різні підходи для оптимізації безлічі завдань, пов'язаних з агентним взаємодією з графічними інтерфейсами (низькорівневе зв'язування з елементами GUI, розуміння того, що відбувається на екрані, багатоетапне планування та самоаналіз). Однак усі вони, по суті, занадто великі та вимогливі до обчислювальних ресурсів, щоб ефективно працювати на локальному пристрої.
Для вирішення цієї проблеми дослідники розробили Ferret-UI Lite, яка є версією Ferret-UI з 3 млрд параметрів, побудованою з «використанням кількох ключових компонентів» і з застосуванням ідей, отриманих під час навчання невеликих LLM.

Ferret-UI Lite використовує реальні та синтетичні навчальні дані з кількох GUI-областей, техніки динамічного кадрування та оптимізацію для підвищення якості розуміння конкретних сегментів графічного інтерфейсу. Також були задіяні методи контрольованої тонкої настройки та навчання з підкріпленням. В результаті вдалося створити ІІ-модель, яка практично відповідає або навіть перевершує конкурентні моделі GUI-агентів, що перевершують її за кількістю параметрів до 24 разів.
Ряд нововведень, включаючи те, що модель сама генерує дані для свого навчання, виглядають цікаво. Дослідники створили мультиагентну систему, яка безпосередньо взаємодіє з реальними GUI-інтерфейсами для масової генерації синтетичних прикладів для свого навчання. Задіяно генератор завдань за програмою навчання, який ставить цілі з поступовою складністю, а агент планування розбиває процес їх досягнення на етапи. Агент прив'язки виконує послідовно всі етапи на екрані, а агент оцінки перевіряє результати.

Такий конвеєр дозволяє навчальній системі улавлювати невизначеність реального взаємодії, включаючи помилки та несподівані стани. Це було б складніше зробити, якби модель навчалася тільки на реальних, розмічених вручну даних. Цікаво, що Ferret-UI та Ferret-UI 2 навчалися на зображеннях інтерфейсів iOS та інших платформ Apple, тоді як Ferret-UI Lite навчалася на зображеннях інтерфейсів Android, веб-додатків і десктопних GUI.
Тестування показало, що Ferret-UI Lite добре справляється з короткостроковими низькорівневими завданнями, але не так успішна у виконанні більш складних багатоетапних завдань. Це є цілком очікуваним компромісом, якщо врахувати обмеження, пов'язані з відносно невеликим розміром моделі, здатної працювати локально на пристрої. З іншого боку, Ferret-UI Lite може забезпечити високий рівень конфіденційності даних, оскільки алгоритм працює локально і не передає дані на сервери Apple.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
На потужних Android-пристроях запрацювали AAA-ігри для ПК, але з обмеженнями 22 февраля 2026
Емуляція ігор для ПК в системі Android набирає обертів, і зараз вона стала доступною для широкого кола геймерів. На YouTube-каналі ETA Prime опублікували відео, де демонструється запуск ресурсоємних ігор для ПК на потужних Android-пристроях з емулювальником.
Apple створює локального ШІ-агента для iPhone, який зможе керувати додатками за користувача 22 февраля 2026
Компанія Apple працює над створенням ШІ-агента, який розуміє інтерфейси додатків і може взаємодіяти з ними від імені користувача, працюючи локально на пристрої. Йдеться про алгоритм Ferret-UI Lite з 3 млрд параметрів, який у тестах відповідає або перевершує еталонні показники ШІ-моделей, розміром до 24 разів більших.
У Києві пожежа в приватному будинку забрала життя двох осіб 22 февраля 2026
У Києві пожежа в приватному будинку забрала життя двох осіб. Фото з місця Причини та обставини трагедії встановлять правоохоронці