面壁智能发布 VoxCPM 1.5,面向高拟真语音生成的新型端到端 TTS 模型
面壁智能宣布,面向高拟真语音生成的新型端到端 TTS 模型 VoxCPM 1.5 版本正式上线。
更新亮点一览:
- 高采样音频克隆:AudioVAE 采样率从 16kHz 提升至 44.1kHz ,模型可根据高质量音频,克隆效果更佳、细节更丰富的声音;
- 生成效率翻倍:在模型参数有所增加的前提下,VoxCPM 1.5 仅需 6.25 个 token 即可生成 1 秒音频,较此前版本提高一倍,在保持速度的同时提升了音频生成质量;
- 开发者友好:新增 LoRA 和全量微调脚本,支持深度定制;
- 增强稳定性:减少音频伪影,优化长文本音频的生成效果。
目前,模型已在 Github、Hugging Face 开源。
Huggingface:https://huggingface.co/openbmb/VoxCPM1.5
Github:https://github.com/OpenBMB/VoxCPM

