微软开源文本转语音模型 VibeVoice,支持最多 4 位说话人同时发声
微软正式开源了其最新的文本转语音(TTS)模型 VibeVoice-1.5B,该模型主打 “超长、多人、高压缩”,单次即可生成长达 90 分钟的连续语音,并支持最多 4 位说话人同时发声。
VibeVoice-1.5B 的核心创新在于其双 Tokenizer 设计。模型分为两个独立但协同工作的模块。
1. 声学 Tokenizer:负责保留声音特征并实现高压缩率
采用变分自编码器(VAE)的对称编码 - 解码结构,解决了传统 VAE 在长序列建模中容易出现的 “方差坍缩” 问题(即数据多样性丢失)。
通过 7 阶段的改进型 Transformer 模块和 1D 深度可分离因果卷积,将 24kHz 采样率的原始音频压缩为每秒仅 7.5 个潜在向量,累计压缩率达 3200 倍,压缩效率是主流 Encodec 模型的 80 倍。
2. 语义 Tokenizer:专注于提取与文本对齐的语义特征。
架构与声学 Tokenizer 的编码器部分一致,但移除了变分自编码器组件,以确保语义特征的确定性。
训练过程中,语义 Tokenizer 通过 “自动语音识别” 任务强制绑定语音与文本,最终舍弃解码器以提升推理速度 40%。
这种分工协作的模式,既保留了语音的细节(如音色、节奏),又确保了内容与文本的语义一致性,避免了传统模型中常见的 “音色与情绪不匹配” 问题。
开源地址
https://github.com/microsoft/VibeVoice
https://huggingface.co/microsoft/VibeVoice-1.5B

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
播放器视频后处理实践
1. 前言 在播放器架构不断演进的今天,视频后处理技术正在成为提升用户体验的关键环节。相比传统的解码即播,现代播放器越来越多地引入后处理链路,通过增强画质、渲染氛围等手段,为用户提供更具沉浸感的视听体验。 本系列文章将系统介绍我们在播放器视频后处理模块中的技术方案与工程实现,涵盖从效果设计、算法选型,到性能优化和跨平台兼容的全链路细节。第一期内容聚焦在两类核心能力: 视频增强:提升画面清晰度、对比度与色彩表现,尤其针对暗场、低码率等场景进行针对性优化; 氛围模式:基于视频内容实时生成边缘延展光效,打造更强沉浸感,适配大屏与移动端场景。 本文将着重介绍我们如何在性能受限的设备上实现视频增强效果,如何结合 GPU/OpenGL、Shader 编程以及平台图像处理 API 构建高效可控的处理链路。后续我们将陆续推出如氛围模式等视频后处理文章,敬请期待。 2. 视频增强(亮度和色彩) 丨2.1 什么是视频增强技术 视频增强技术是指一系列用于改善视频质量的技术手段,其目的是在不改变原始内容的情况下提升视频的视觉效果。技术的应用场景包括视频播放、编辑、传输、存储等领域,常用于提高图像清晰度、对比度...
- 下一篇
阿里开源 Vivid-VR:AI 视频修复神器
阿里云推出了一款名为 Vivid-VR 的开源生成式视频修复工具,基于先进的文本到视频(T2V)基础模型,结合ControlNet技术,确保视频生成过程中的内容一致性。 该工具能够有效修复真实视频或AIGC(AI生成内容)视频中的质量问题,消除闪烁、抖动等常见缺陷,为内容创作者提供了一个高效的素材补救方案。无论是对低质量视频的修复,还是对生成视频的优化,Vivid-VR都展现出了卓越的性能。 Vivid-VR的核心技术在于其结合了T2V基础模型与ControlNet的创新架构。T2V模型通过深度学习生成高质量视频内容,而ControlNet则通过精准的控制机制,确保修复后的视频在帧间保持高度的时间一致性,避免了常见的闪烁或抖动问题。 据悉,该工具在生成过程中能够动态调整语义特征,显著提升视频的纹理真实感和视觉生动性。这种技术组合不仅提高了修复效率,还为视频内容保持了更高的视觉稳定性。 Vivid-VR的另一大亮点是其广泛的适用性。无论是传统拍摄的真实视频,还是基于AI生成的内容,Vivid-VR都能提供高效的修复支持。 对于内容创作者而言,低质量素材常常是创作过程中的痛点,而Vivid...
相关文章
文章评论
共有0条评论来说两句吧...