您现在的位置是:首页 > 文章详情

阿里通义发布旗舰语音合成模型 Qwen3-TTS-Flash

日期:2025-09-23点击:4

阿里通义Qwen团队宣布推出旗舰级多语言多音色文本转语音模型Qwen3-TTS-Flash,该模型支持多语言、多音色及多种汉语方言,在seed-tts-eval与MiniMax多语测试集上取得了SOTA级别的稳定性和相似度,并同步上线了API、Demo与多段音频样例。

官方团队称他们对Qwen3-TTS-Flash在语音稳定性和音色相似度方面进行了全面评估,结果显示其在多项指标上都达到了SOTA性能。

具体来说,在seed-tts-eval test set上,Qwen3-TTS-Flash在中英文的语音稳定性表现上均取得了SOTA成绩,超越了SeedTTS、MiniMax和GPT-4o-Audio-Preview。

此外,在MiniMax TTS multilingual test set上,Qwen3-TTS-Flash在中文、英文、意大利语和法语的WER均达到了SOTA,显著低于MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在说话人相似度方面,Qwen3-TTS-Flash在英文、意大利语和法语均超过了上述模型,在多语言的语音稳定性和音色相似度上展现出了卓越的表现。

Qwen3-TTS-Flash定位为旗舰语音合成模型,采用统一架构,支持17种音色,每种音色均可输出10种语言。它覆盖了普通话以及闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等9种汉语方言。

同时,模型还提供英式、美式及其他地区口音的英语,以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。

该模型具备自动语气调节、鲁棒的文本处理以及混合语种生成能力。在性能方面,单并发首包延迟最低为97ms,满并发首包延迟为420ms,RTF最低可达0.30。

原文链接:https://www.oschina.net/news/373853
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章