27 августа 2025
Microsoft представила проект с открытым исходным кодом VibeVoice в области искусственного интеллекта — новую систему синтеза речи, способную генерировать из текста аудиоподкасты длительностью до 90 минут на английском или китайском языке. Технология уже доступна для тестирования любому желающему онлайн или с установкой на локальное устройство пользователя.
Источник изображения: AI
Разработчики охарактеризовали VibeVoice как новаторский фреймворк, созданный для генерации продолжительного по времени аудиоконтента с несколькими участниками непосредственно из текста. Как пишет Windows Central, система решает ключевые проблемы традиционных синтезаторов речи (TTS), такие как масштабируемость, согласованность характеристик голоса и естественность чередования реплик в диалоге. Модель способна синтезировать аудио продолжительностью до 90 минут с участием до четырёх уникальных голосов, что превосходит ограничения в 1-2 спикера, характерные для многих предыдущих ИИ-моделей.
В настоящее время для тестирования доступны две версии модели: на 1,5 и 7 млрд параметров. Первая может генерировать до 90 минут аудио с длиной контекста 64 тыс. токенов, тогда как вторая, предположительно более качественная из-за большего размера, ограничена 45 минутами и окном в 32 тысячи токенов. Также ожидается выпуск облегчённой версии на 0,5 млрд параметров, предназначенной для работы в реальном времени. Для локальной работы меньшая модель требует около 7 Гбайт видеопамяти, а для большей может потребоваться до 18 Гбайт VRAM.
На текущий момент ИИ-модель VibeVoice обучена только на английском и китайском языках, включая мандаринскую разновидность (севернокитайский или путунхуа). Однако в Microsoft отмечают, что в будущих версиях планируется расширение поддержки других языков. Система способна передавать эмоции, управлять сменой реплик между участниками и генерировать естественные диалоги, хотя попытки воспроизведения музыки пока остаются неудачными. Голоса звучат довольно реалистично, однако их искусственное происхождение остаётся заметным. В перспективе разработчики рассматривают возможность интеграции функции клонирования голоса.
Разработчики отмечают, что при запуске потоковой версии аудиогенерации VibeVoice может быть интегрирована в чат-ассистенты, позволяя обходиться без внешних серверов. Дополнительные сведения, включая инструкции по установке и настройке, доступны в официальном репозитории VibeVoice в GitHub и на платформе Hugging Face.
Хочешь узнать больше - читай отзывы
← Вернуться на предыдущую страницу
Україна опустилася в рейтингу букмекерів Євробачення 2026 після оголошення фіналістів Нацвідбору 17 января 2026
Україна опустилася в рейтингу букмекерів Євробачення 2026 після оголошення фіналістів Нацвідбору. Таблиця Як єврофани відреагували на конкурсні пісні
У Києві дозволили цілодобову роботу таксі 17 января 2026
У Києві дозволили цілодобову роботу таксі
SoftBank розгорнула стільникову базову станцію на енергії сонця та вітру — її роботою буде керувати штучний інтелект 17 января 2026
Компанія SoftBank розпочала тестування нового типу базової станції стільникового зв'язку, яка самостійно виробляє значну частину енергії для своєї роботи за допомогою сонячних панелей та вітрової турбіни потужністю 3 кВт. Така гібридна система спрямована на зниження енергоспоживання традиційних мереж завдяки використанню відновлювальних джерел, що також вимагає розумного регулювання активності станції.