27 августа 2025
Microsoft представила проект с открытым исходным кодом VibeVoice в области искусственного интеллекта — новую систему синтеза речи, способную генерировать из текста аудиоподкасты длительностью до 90 минут на английском или китайском языке. Технология уже доступна для тестирования любому желающему онлайн или с установкой на локальное устройство пользователя.
Источник изображения: AI
Разработчики охарактеризовали VibeVoice как новаторский фреймворк, созданный для генерации продолжительного по времени аудиоконтента с несколькими участниками непосредственно из текста. Как пишет Windows Central, система решает ключевые проблемы традиционных синтезаторов речи (TTS), такие как масштабируемость, согласованность характеристик голоса и естественность чередования реплик в диалоге. Модель способна синтезировать аудио продолжительностью до 90 минут с участием до четырёх уникальных голосов, что превосходит ограничения в 1-2 спикера, характерные для многих предыдущих ИИ-моделей.
В настоящее время для тестирования доступны две версии модели: на 1,5 и 7 млрд параметров. Первая может генерировать до 90 минут аудио с длиной контекста 64 тыс. токенов, тогда как вторая, предположительно более качественная из-за большего размера, ограничена 45 минутами и окном в 32 тысячи токенов. Также ожидается выпуск облегчённой версии на 0,5 млрд параметров, предназначенной для работы в реальном времени. Для локальной работы меньшая модель требует около 7 Гбайт видеопамяти, а для большей может потребоваться до 18 Гбайт VRAM.
На текущий момент ИИ-модель VibeVoice обучена только на английском и китайском языках, включая мандаринскую разновидность (севернокитайский или путунхуа). Однако в Microsoft отмечают, что в будущих версиях планируется расширение поддержки других языков. Система способна передавать эмоции, управлять сменой реплик между участниками и генерировать естественные диалоги, хотя попытки воспроизведения музыки пока остаются неудачными. Голоса звучат довольно реалистично, однако их искусственное происхождение остаётся заметным. В перспективе разработчики рассматривают возможность интеграции функции клонирования голоса.
Разработчики отмечают, что при запуске потоковой версии аудиогенерации VibeVoice может быть интегрирована в чат-ассистенты, позволяя обходиться без внешних серверов. Дополнительные сведения, включая инструкции по установке и настройке, доступны в официальном репозитории VibeVoice в GitHub и на платформе Hugging Face.
Хочешь узнать больше - читай отзывы
← Вернуться на предыдущую страницу
Юрій Горбунов опинився під крапельницею і прокоментував свій стан однією фразою 27 мая 2026
Юрій Горбунов опинився під крапельницею і прокоментував свій стан однією фразою Артист поділився фотографією з медичного кабінету
США відмовили у візі заступнику Лаврова 27 мая 2026
У Росії звинуватили США у порушенні зобов’язань за Угодою про розміщення штаб-квартири ООН.
В Каліфорнії вперше почали закачувати вуглекислий газ під землю для «вічного» зберігання 27 мая 2026
В Каліфорнії розпочав роботу перший в штаті промисловий об'єкт з уловлювання та довгострокового підземного зберігання вуглекислого газу — Carbon TerraVault I, або CTV I. Штат поставив перед собою мету якомога швидше досягти вуглецевої нейтральності, але від ряду шкідливих виробництв також не можна відмовитися. Компромісом стало уловлювання промислового CO2 та закачування його глибоко під землю.