通义实验室发布语音双模型:Fun-CosyVoice3.5 与 Fun-AudioGen-VD
通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。无论是精细控制声音表达,还是从零设计音色与场景,都可以通过自然语言指令直接生成。 两款模型均支持通过自然语言指令控制语音生成,但应用方向不同: Fun-CosyVoice3.5:多语种复刻 + 精细化表达控制 Fun-AudioGen-VD:声音设计 + 场景化音频生成 根据介绍,CosyVoice3.5 在 Instruct-TTS 方向实现能力升级,支持 FreeStyle 指令控制生成效果,一句话自由生成语音。你可以直接用自然语言描述表达方式,例如:“语气坚定一点”、“稍微压低音调,语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。 并新增了泰语、印尼语、葡萄牙语、越南语 4 个小语种支持。针对生僻字、复杂语句等容易读错的场景专项优化,生僻字读错率从 15.2% 降至 5.3%,复杂文本表现更加稳定,长文本朗读也更稳定流畅。 韵律与音质得到优化。语言模型部分使用 DiffRO + GRPO,增加时长与韵律多通道 rew...


