阿里通义发布旗舰语音合成模型 Qwen3-TTS-Flash
阿里通义Qwen团队宣布推出旗舰级多语言多音色文本转语音模型Qwen3-TTS-Flash,该模型支持多语言、多音色及多种汉语方言,在seed-tts-eval与MiniMax多语测试集上取得了SOTA级别的稳定性和相似度,并同步上线了API、Demo与多段音频样例。
官方团队称他们对Qwen3-TTS-Flash在语音稳定性和音色相似度方面进行了全面评估,结果显示其在多项指标上都达到了SOTA性能。
具体来说,在seed-tts-eval test set上,Qwen3-TTS-Flash在中英文的语音稳定性表现上均取得了SOTA成绩,超越了SeedTTS、MiniMax和GPT-4o-Audio-Preview。
此外,在MiniMax TTS multilingual test set上,Qwen3-TTS-Flash在中文、英文、意大利语和法语的WER均达到了SOTA,显著低于MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在说话人相似度方面,Qwen3-TTS-Flash在英文、意大利语和法语均超过了上述模型,在多语言的语音稳定性和音色相似度上展现出了卓越的表现。
Qwen3-TTS-Flash定位为旗舰语音合成模型,采用统一架构,支持17种音色,每种音色均可输出10种语言。它覆盖了普通话以及闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等9种汉语方言。
同时,模型还提供英式、美式及其他地区口音的英语,以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。
该模型具备自动语气调节、鲁棒的文本处理以及混合语种生成能力。在性能方面,单并发首包延迟最低为97ms,满并发首包延迟为420ms,RTF最低可达0.30。


