Qwen3-TTS 全面升级: 音色设计与音色克隆
Qwen3-TTS家族新推出两款模型,音色创造模型Qwen3-TTS-VD-Flash(可通过Qwen API访问)和音色克隆模型Qwen3-TTS-VC-Flash(可通过Qwen API访问)。
主要特点:
-
音色创造:Qwen3-TTS-VD-Flash 支持复杂自然语言指令输入,实现对音色、韵律、情感、人设等的精细化调控,实现从“说什么”到“如何说”的全面掌控,可以让用户自由的定义想要的音色,彻底摆脱只能进行根据已有的音色进行克隆或者只能选择固定的一部分预设音色。在 InstructTTS-Eval 中综合表现显著优于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试中也超越 Gemini-2.5-pro-preview-tts。
-
音色克隆:Qwen3-TTS-VC-Flash 支持3s级别音色克隆,并且可以基于克隆的音色生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等10大主流语言。在MiniMax TTS Multilingual Test Set上,平均词错误率(WER)全面优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。
-
高表现力:Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具备高表现力的拟人化音色,能够稳定、可靠地输出高度契合输入文本的语音内容,并根据文本语义自动调节语气节奏,呈现自然生动的表达效果。
-
鲁棒的文本能力:Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具备强大的文本解析能力,可自动处理复杂文本结构,精准提取关键信息,对多样化、非规范化的文本格式展现出较强的鲁棒性。
根据官方博客,Qwen3-TTS-VD-Flash模型支持通过自然语言指令自由设计声音的音色、韵律和情感,不再依赖预设音库。Qwen3-TTS-VC-Flash模型则能以极短音频完成克隆,并支持中文、英文、日语等多种语言。两款模型均已上线,用户可通过阿里云百炼平台 API 进行体验。

