26 июня 2022
Компания Meta рассказала о работе над технологиями реалистичного звука для виртуальных миров — проект реализуется при содействии учёных Техасского университета в Остине. В рамках проекта были разработаны три модели искусственного интеллекта, доступные для сторонних разработчиков.
Источник изображения: Rodger Shija / pixabay.com
Как пояснила Кристен Гаруман (Kristen Garuman), профессор информатики Техасского университета и директор по исследованиям Meta AI, дополненную и виртуальную реальность нельзя сводить только к визуальной составляющей — важную роль в оживлении мира играет звук. На его качество влияют различные факторы: геометрия помещения, размещённые в нём объекты, а также расстояние до источника. Поэтому родилась идея использовать для обработки звука алгоритмы искусственного интеллекта.
Первый алгоритм получил название AviTAR — это «модель визуально-акустического согласования», которая обеспечивает преобразование звука в соответствии со средой. Чтобы объяснить работу алгоритма, авторы проекта привели пример. Мать посетила выступление своего ребёнка и при помощи очков дополненной реальности записала его прямо из зрительного зала. Алгоритм приводится в действие, когда женщина хочет воспроизвести запись дома. Система сканирует помещение, учитывая расположенные в нём предметы интерьера, и воспроизводит запись таким образом, как будто юный артист выступает в том же зале.
Второй алгоритм получил название Visually-Informed Dereverberation. Он предназначается для удаления из записи эффекта реверберации — множественных эхо, возникающих при отражении звука от стен и других объектов. Возвращаясь к примеру с детским концертом, мать при воспроизведении записи дома не услышит ничего, кроме музыки.
Наконец, третья модель ИИ получила название VisualVoice — она отделяет голос человека от остальных источников звука. Например, если записать видео, на котором спорят два человека, алгоритм выделит один из голосов, заглушив все остальные. Как пояснили в Meta, для этого искусственному интеллекту необходимы визуальные подсказки — он должен «видеть», кто говорит, и на основе этой информации различать в общем потоке необходимые нюансы.
Хочешь узнать больше - читай отзывы
← Вернуться на предыдущую страницу
Windows 11 швидко втрачає довіру користувачів — багато хто вже повернувся на Windows 10 28 января 2026
За даними Statcounter, у жовтні 2025 року частка ринку Windows 11 становила 55,18 %. У листопаді вона знизилася до 53,7 %, а в грудні впала до 50,73 %. Схоже, що незважаючи на закінчення підтримки, Windows 10 відвоює частку ринку у стагнуючої Windows 11. На думку головного редактора ресурсу Windows Central Деніела Рубіно, у Windows 11 «немає проблеми з функціями. У неї є проблема з довірою».
Ютубери звинуватили Snap у крадіжці їхніх відео для навчання ШІ-моделей 28 января 2026
Група користувачів YouTube, творців інтернет-контенту з аудиторією близько 6,2 млн підписників, яка раніше подала до суду на технологічних гігантів через несанкціоноване використання їхніх відео для навчання ІІ-моделей, додала Snap до списку відповідачів. У цьому списку також присутні Nvidia, Meta та ByteDance, повідомляє TechCrunch.
2030 рік як точка ризику: Єврокомісія заявила про загрозу для всіх паролів 28 января 2026
2030 рік як точка ризику: Єврокомісія заявила про загрозу для всіх паролів