智谱上线并开源工业级语音合成系统 GLM‑TTS
智谱AI宣布正式上线并开源 GLM‑TTS 工业级语音合成系统。
据介绍,只需 3 秒语音样本,GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音。
GLM‑TTS 在架构上采用两阶段生成,并在训练中引入基于 GRPO 的强化学习方案,在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。
GLM‑TTS 基于 GRPO 框架,引入多维度奖励和稳定训练机制,在可控前提下提升模型的表达力和鲁棒性。
强化学习采用了训练数据与合成数据相结合的数据构造模式,实现了几乎零成本的数据生成。通过与训练算法的优化协同,有效避免了奖励欺骗(reward hacking),从而保证了模型性能的真实性和泛化能力,在未见过的测试集上同样取得了理想效果。
值得一提的是,GLM-TTS 仅使用 10w 小时训练数据,远低于行业主流商用模型。同时,GLM-TTS 也兼顾了训练成本和效果,预训练仅需要单机 4 天即可得到开源 SOTA“发音准确度”与超高“音色还原度”,精品音色 LORA 和强化学习也仅需要单机 1 天即可完成训练,远低于行业平均水平。
另外,GLM‑TTS 还以更低的价格获得了行业领先的 MOS 分数(平均主观意见分)。
GLM‑TTS 相关资源(模型权重、推理脚本、示例项目等):
GitHub:https://github.com/zai-org/GLM-TTS
Hugging Face:https://huggingface.co/zai-org/GLM-TTS



