Apple створила ШІ, який обчислює дії користувача за звуком і рухами

24 ноября 2025

Компанія Apple опублікувала звіт за результатами дослідження, метою якого було вивчення того, як великі мовні моделі (LLM) можуть аналізувати аудіодані та дані про рух, щоб отримати уявлення про те, що робить користувач.

Дослідження та розробки: 9to5 Mac

Джерело зображень: 9to5 Mac

Опублікована нещодавно наукова робота «Використання LLM для подальшого об'єднання мультимодальних даних датчиків для розпізнавання активності» дозволяє зрозуміти, як Apple розглядає можливість об'єднання даних аналізу за допомогою ІІ-моделей з традиційними даними від датчиків для більш точного розуміння активності користувача. На думку дослідників, це має великий потенціал для підвищення точності аналізу активності, навіть у випадках, коли одних даних від датчиків для цього недостатньо.

«Потоки даних з датчиків надають цінну інформацію про діяльність і контекст для різних застосувань, хоча інтеграція додаткової інформації може бути складним завданням. Ми показуємо, що великі мовні моделі можна залучити для подальшого об'єднання даних при класифікації активності на основі часових рядів, аудіо та даних про рух», — йдеться в роботі Apple.

Дослідники відібрали підмножину даних для різноманітного розпізнавання активності в різних контекстах, наприклад, виконання домашніх справ або занять спортом, з набору даних Ego4D. Було встановлено, що великі мовні моделі досить добре справляються з завданнями, пов'язаними з визначенням того, що робить користувач, аналізуючи звукові та рухові сигнали. Примітно, що вони справляються з такими завданнями досить добре, навіть якщо їх спеціально не навчали цьому. Якщо ж надати всього один приклад для навчання, то точність одразу значно підвищується. Зазначається, що LLM у дослідженні обробляла не саму аудіозапис, а текстовий опис, згенерований аудіомоделями та моделлю руху, яка отримує дані від акселерометра та гіроскопа.

У повідомленні зазначено, що в рамках дослідження використовувався набір даних Ego4D, знятих від першої особи. Ці дані містять тисячі годин записів з реального світу, на яких зафіксовані різні ситуації — від домашніх справ до занять спортом і активного відпочинку. «Ми створили набір даних про повсякденні активності з набору Ego4D, виконавши пошук дій з повсякденного життя в наданих текстових описах. Відібраний набір даних включає в себе 20-секундні вибірки з 12 видів активностей: прибирання пилососом, приготування їжі, прання, прийом їжі, гра в баскетбол, гра у футбол, гра з домашніми тваринами, читання книги, робота за комп'ютером, миття посуду, перегляд телевізора, силові тренування. Ці активності були обрані таким чином, щоб охопити спектр домашніх і пов'язаних зі спортом завдань на основі їх широкого поширення в вихідному наборі даних», — йдеться в дослідженні.

Дослідники обробили звукові дані та дані про рух за допомогою невеликих ІІ-моделей, які генерували текстові описи та прогнози щодо категорії активності, після чого дані передавалися в різні LLM (Gemini-2.5-pro та Qwen-32B), щоб оцінити, наскільки добре вони можуть ідентифікувати активність. Потім Apple порівняла продуктивність цих двох ІІ-моделей у різних ситуаціях: в одній з них надавався список з 12 можливих активностей (закритий набір), а в іншій не було жодних варіантів (відкритий набір). Для кожного тесту надавалися різні комбінації текстових розшифровок аудіо, аудіоміток, прогнозів по активностям, а також додатковий контекст.

Великі мовні моделі показали значно більш точні результати, ніж базові моделі, що працюють лише з одним типом даних, особливо в складних сценаріях. Найвищої точності вдалося досягти при роботі з закритим набором даних, коли модель повинна була вибрати одну з 12 активностей. При роботі з відкритим набором ІІ-моделі також показали хороші результати, але іноді відповіді були занадто узагальненими або неточними. Gemini-2.5-pro та Qwen-32B продемонстрували порівнянні результати з невеликими перевагами один над одним у різних категоріях, що свідчить про універсальність такого підходу.

Дослідження Apple показує, що ІІ-моделі можуть виступати в ролі потужного і гнучкого інструменту для об'єднання та аналізу мультимодальних даних з мінімальним дообученням. Це може сприяти створенню більш розумних і контекстно-усвідомлених систем на мобільних пристроях і носимих гаджетах.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Apple створила ШІ, який обчислює дії користувача за звуком і рухами 24 ноября 2025

Компанія Apple опублікувала звіт за результатами дослідження, метою якого було вивчення того, як великі мовні моделі (LLM) можуть аналізувати аудіодані та дані про рух, щоб отримати уявлення про те, що робить користувач.

Екссоратниця Трампа Марджорі Тейлор Ґрін йде з Конгресу 23 ноября 2025

Поітикиня заявила, що ухвалила таке рішення через критику та образи з боку Трампа, палкою прихильницею якого вона буа раніше.

Конгрес почав збір підписів за нові санкції проти Росії 23 ноября 2025

Однопартієць Трампа назвав його "мирний план" "несерйозною нісенітницею" і ініціював збір підписів за розблокування законопроєкту щодо санкцій.

 

Вас могут заинтересовать эти отзывы

Оксфорд медікал 0.1
Оксфорд медікал

Отзывов: 1

Smm plus 0.1
Smm plus

Отзывов: 1

ВІДІ 5.0
ВІДІ

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше