Apple створила ШІ, який обчислює дії користувача за звуком і рухами

24 ноября 2025

Компанія Apple опублікувала звіт за результатами дослідження, метою якого було вивчення того, як великі мовні моделі (LLM) можуть аналізувати аудіодані та дані про рух, щоб отримати уявлення про те, що робить користувач.

Дослідження та розробки: 9to5 Mac

Джерело зображень: 9to5 Mac

Опублікована нещодавно наукова робота «Використання LLM для подальшого об'єднання мультимодальних даних датчиків для розпізнавання активності» дозволяє зрозуміти, як Apple розглядає можливість об'єднання даних аналізу за допомогою ІІ-моделей з традиційними даними від датчиків для більш точного розуміння активності користувача. На думку дослідників, це має великий потенціал для підвищення точності аналізу активності, навіть у випадках, коли одних даних від датчиків для цього недостатньо.

«Потоки даних з датчиків надають цінну інформацію про діяльність і контекст для різних застосувань, хоча інтеграція додаткової інформації може бути складним завданням. Ми показуємо, що великі мовні моделі можна залучити для подальшого об'єднання даних при класифікації активності на основі часових рядів, аудіо та даних про рух», — йдеться в роботі Apple.

Дослідники відібрали підмножину даних для різноманітного розпізнавання активності в різних контекстах, наприклад, виконання домашніх справ або занять спортом, з набору даних Ego4D. Було встановлено, що великі мовні моделі досить добре справляються з завданнями, пов'язаними з визначенням того, що робить користувач, аналізуючи звукові та рухові сигнали. Примітно, що вони справляються з такими завданнями досить добре, навіть якщо їх спеціально не навчали цьому. Якщо ж надати всього один приклад для навчання, то точність одразу значно підвищується. Зазначається, що LLM у дослідженні обробляла не саму аудіозапис, а текстовий опис, згенерований аудіомоделями та моделлю руху, яка отримує дані від акселерометра та гіроскопа.

У повідомленні зазначено, що в рамках дослідження використовувався набір даних Ego4D, знятих від першої особи. Ці дані містять тисячі годин записів з реального світу, на яких зафіксовані різні ситуації — від домашніх справ до занять спортом і активного відпочинку. «Ми створили набір даних про повсякденні активності з набору Ego4D, виконавши пошук дій з повсякденного життя в наданих текстових описах. Відібраний набір даних включає в себе 20-секундні вибірки з 12 видів активностей: прибирання пилососом, приготування їжі, прання, прийом їжі, гра в баскетбол, гра у футбол, гра з домашніми тваринами, читання книги, робота за комп'ютером, миття посуду, перегляд телевізора, силові тренування. Ці активності були обрані таким чином, щоб охопити спектр домашніх і пов'язаних зі спортом завдань на основі їх широкого поширення в вихідному наборі даних», — йдеться в дослідженні.

Дослідники обробили звукові дані та дані про рух за допомогою невеликих ІІ-моделей, які генерували текстові описи та прогнози щодо категорії активності, після чого дані передавалися в різні LLM (Gemini-2.5-pro та Qwen-32B), щоб оцінити, наскільки добре вони можуть ідентифікувати активність. Потім Apple порівняла продуктивність цих двох ІІ-моделей у різних ситуаціях: в одній з них надавався список з 12 можливих активностей (закритий набір), а в іншій не було жодних варіантів (відкритий набір). Для кожного тесту надавалися різні комбінації текстових розшифровок аудіо, аудіоміток, прогнозів по активностям, а також додатковий контекст.

Великі мовні моделі показали значно більш точні результати, ніж базові моделі, що працюють лише з одним типом даних, особливо в складних сценаріях. Найвищої точності вдалося досягти при роботі з закритим набором даних, коли модель повинна була вибрати одну з 12 активностей. При роботі з відкритим набором ІІ-моделі також показали хороші результати, але іноді відповіді були занадто узагальненими або неточними. Gemini-2.5-pro та Qwen-32B продемонстрували порівнянні результати з невеликими перевагами один над одним у різних категоріях, що свідчить про універсальність такого підходу.

Дослідження Apple показує, що ІІ-моделі можуть виступати в ролі потужного і гнучкого інструменту для об'єднання та аналізу мультимодальних даних з мінімальним дообученням. Це може сприяти створенню більш розумних і контекстно-усвідомлених систем на мобільних пристроях і носимих гаджетах.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

"Запросив мене на побачення": кохана Кіану Рівза показала їхній цілунок на ковзанці 15 января 2026

Хоча чутки про те, що канадський актор Кіану Рівз та американська художниця Александра Грант стали подружжям, поки не підтвердилися, шанувальники парочки все одно мають привід тішитися за своїх улюбленців.

Названо дві приховані причини болю в спині, які можна усунути самостійно 14 января 2026

Проблеми зі спиною для багатьох давно перестали бути чимось винятковим. Біль у спині періодично нагадує про себе у офісних працівників, у тих, хто багато часу проводить на ногах, у людей, які пережили стресові події або тривале перевтомлення.

Володарка "Золотого глобуса" Теяна Тейлор для відомого глянцю похвалилася формами в прозорій сукні й мікрошортах 14 января 2026

35-річна американська акторка і співачка Теяна Тейлор, яка днями отримала нагороду за найкращу жіночу роль другого плану за версією "Золотого глобуса", стала героїнею нового випуску Vanity Fair.

 

Вас могут заинтересовать эти отзывы

Теплорадість 4.8
Теплорадість

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше