Microsoft представила VibeVoice — відкритий ШІ, що перетворює текст на півторагодинні подкасти

27 августа 2025

Microsoft представила проект с открытым исходным кодом VibeVoice в области искусственного интеллекта — новую систему синтеза речи, способную генерировать из текста аудиоподкасты длительностью до 90 минут на английском или китайском языке. Технология уже доступна для тестирования любому желающему онлайн или с установкой на локальное устройство пользователя.

Источник изображения: AI

Источник изображения: AI

Разработчики охарактеризовали VibeVoice как новаторский фреймворк, созданный для генерации продолжительного по времени аудиоконтента с несколькими участниками непосредственно из текста. Как пишет Windows Central, система решает ключевые проблемы традиционных синтезаторов речи (TTS), такие как масштабируемость, согласованность характеристик голоса и естественность чередования реплик в диалоге. Модель способна синтезировать аудио продолжительностью до 90 минут с участием до четырёх уникальных голосов, что превосходит ограничения в 1-2 спикера, характерные для многих предыдущих ИИ-моделей.

В настоящее время для тестирования доступны две версии модели: на 1,5 и 7 млрд параметров. Первая может генерировать до 90 минут аудио с длиной контекста 64 тыс. токенов, тогда как вторая, предположительно более качественная из-за большего размера, ограничена 45 минутами и окном в 32 тысячи токенов. Также ожидается выпуск облегчённой версии на 0,5 млрд параметров, предназначенной для работы в реальном времени. Для локальной работы меньшая модель требует около 7 Гбайт видеопамяти, а для большей может потребоваться до 18 Гбайт VRAM.

На текущий момент ИИ-модель VibeVoice обучена только на английском и китайском языках, включая мандаринскую разновидность (севернокитайский или путунхуа). Однако в Microsoft отмечают, что в будущих версиях планируется расширение поддержки других языков. Система способна передавать эмоции, управлять сменой реплик между участниками и генерировать естественные диалоги, хотя попытки воспроизведения музыки пока остаются неудачными. Голоса звучат довольно реалистично, однако их искусственное происхождение остаётся заметным. В перспективе разработчики рассматривают возможность интеграции функции клонирования голоса.

Разработчики отмечают, что при запуске потоковой версии аудиогенерации VibeVoice может быть интегрирована в чат-ассистенты, позволяя обходиться без внешних серверов. Дополнительные сведения, включая инструкции по установке и настройке, доступны в официальном репозитории VibeVoice в GitHub и на платформе Hugging Face. 

Хочешь узнать больше - читай отзывы

← Вернуться на предыдущую страницу

Читайте также:

Тімур Мірошниченко здивував спогадом про Кіркорова, який переслідує його в кошмарах 16 февраля 2026

"Це психологічна травма на все життя". Тімур Мірошниченко здивував спогадом про Кіркорова, який переслідує його в кошмарах Український ведучий був шокований розкутістю росіянина

У Києві сварка братів-близнюків ледь не закінчилась жорстоким вбивством 16 февраля 2026

У Києві сварка братів-близнюків ледь не закінчилась жорстоким вбивством. Подробиці та фото Підозрюваному загрожує до восьми років позбавлення волі

ЗМІ назвали гаранта безпеки прольоту делегації РФ до Женеви 16 февраля 2026

До складу делегації країни-агресорки Росії на тристоронні переговори увійдуть щонайменше 15 осіб.

 

Вас могут заинтересовать эти отзывы

Layboard 5.0
Layboard

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше