您现在的位置是：首页 > 文章详情

微软开源文本转语音模型 VibeVoice，支持最多 4 位说话人同时发声

日期：2025-08-26点击：96收藏

微软正式开源了其最新的文本转语音（TTS）模型 VibeVoice-1.5B，该模型主打 “超长、多人、高压缩”，单次即可生成长达 90 分钟的连续语音，并支持最多 4 位说话人同时发声。

VibeVoice-1.5B 的核心创新在于其双 Tokenizer 设计。模型分为两个独立但协同工作的模块。

1. 声学 Tokenizer：负责保留声音特征并实现高压缩率

采用变分自编码器（VAE）的对称编码 - 解码结构，解决了传统 VAE 在长序列建模中容易出现的 “方差坍缩” 问题（即数据多样性丢失）。

通过 7 阶段的改进型 Transformer 模块和 1D 深度可分离因果卷积，将 24kHz 采样率的原始音频压缩为每秒仅 7.5 个潜在向量，累计压缩率达 3200 倍，压缩效率是主流 Encodec 模型的 80 倍。

2. 语义 Tokenizer：专注于提取与文本对齐的语义特征。

架构与声学 Tokenizer 的编码器部分一致，但移除了变分自编码器组件，以确保语义特征的确定性。

训练过程中，语义 Tokenizer 通过 “自动语音识别” 任务强制绑定语音与文本，最终舍弃解码器以提升推理速度 40%。

这种分工协作的模式，既保留了语音的细节（如音色、节奏），又确保了内容与文本的语义一致性，避免了传统模型中常见的 “音色与情绪不匹配” 问题。

开源地址

https://github.com/microsoft/VibeVoice
https://huggingface.co/microsoft/VibeVoice-1.5B

原文链接：https://www.oschina.net/news/368509

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

Java分享