Qwen3-TTS 全面升级: 音色设计与音色克隆
Qwen3-TTS家族新推出两款模型,音色创造模型Qwen3-TTS-VD-Flash(可通过Qwen API访问)和音色克隆模型Qwen3-TTS-VC-Flash(可通过Qwen API访问)。 主要特点: 音色创造:Qwen3-TTS-VD-Flash 支持复杂自然语言指令输入,实现对音色、韵律、情感、人设等的精细化调控,实现从“说什么”到“如何说”的全面掌控,可以让用户自由的定义想要的音色,彻底摆脱只能进行根据已有的音色进行克隆或者只能选择固定的一部分预设音色。在 InstructTTS-Eval 中综合表现显著优于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试中也超越 Gemini-2.5-pro-preview-tts。 音色克隆:Qwen3-TTS-VC-Flash 支持3s级别音色克隆,并且可以基于克隆的音色生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等10大主流语言。在MiniMax TTS Multilingual Test Set上,平均词错误率(WER)全面优于MiniMax、Elev...



