阿里通义发布旗舰语音合成模型 Qwen3-TTS-Flash
阿里通义Qwen团队宣布推出旗舰级多语言多音色文本转语音模型Qwen3-TTS-Flash,该模型支持多语言、多音色及多种汉语方言,在seed-tts-eval与MiniMax多语测试集上取得了SOTA级别的稳定性和相似度,并同步上线了API、Demo与多段音频样例。
官方团队称他们对Qwen3-TTS-Flash在语音稳定性和音色相似度方面进行了全面评估,结果显示其在多项指标上都达到了SOTA性能。
具体来说,在seed-tts-eval test set上,Qwen3-TTS-Flash在中英文的语音稳定性表现上均取得了SOTA成绩,超越了SeedTTS、MiniMax和GPT-4o-Audio-Preview。
此外,在MiniMax TTS multilingual test set上,Qwen3-TTS-Flash在中文、英文、意大利语和法语的WER均达到了SOTA,显著低于MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在说话人相似度方面,Qwen3-TTS-Flash在英文、意大利语和法语均超过了上述模型,在多语言的语音稳定性和音色相似度上展现出了卓越的表现。
Qwen3-TTS-Flash定位为旗舰语音合成模型,采用统一架构,支持17种音色,每种音色均可输出10种语言。它覆盖了普通话以及闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等9种汉语方言。
同时,模型还提供英式、美式及其他地区口音的英语,以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。
该模型具备自动语气调节、鲁棒的文本处理以及混合语种生成能力。在性能方面,单并发首包延迟最低为97ms,满并发首包延迟为420ms,RTF最低可达0.30。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
百度智能云开源视觉理解模型 Qianfan-VL
百度智能云千帆宣布开源发布全新视觉理解模型——Qianfan-VL。该系列包含3B、8B和70B三个尺寸版本,是面向企业级多模态应用场景,进行了深度优化的视觉理解大模型。 公告称,Qianfan-VL不仅具备出色的基础通用能力,还针对产业落地中的高频需求,如OCR和教育垂直场景做了专项强化,使其在实际应用中表现更加卓越。即日起至10月10日,企业用户和开发者可在百度智能云千帆平台免费体验8B、70B模型。 Qianfan-VL 系列模型基于开源模型进行开发,并在百度自研昆仑芯P800上完成全流程计算任务。具备三大特点: 多尺寸模型满足不同场景需求:提供3B、8B、70B三种规格的模型,让不同规模的企业和开发者都能找到合适的解决方案。 提供思考推理能力:8B和70B模型支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景。 OCR与文档理解能力增强:主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异,为企业级应用提供高精度的视觉理解解决方案。 一些测评结果如下: 更多详情可查看官方公告。
-
下一篇
Qwen-Image-Edit-2509 发布: 多图编辑支持,单图一致性提升
阿里通义 Qwen 团队宣布推出 Qwen-Image-Edit-2509,作为 Qwen-Image-Edit 的月迭代版本。 相比于8月发布的 Qwen-Image-Edit,Qwen-Image-Edit-2509 的主要特性包括: 多图编辑支持: 对于多图输入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 结构,通过拼接方式进一步训练,从而进行了支持。提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法。 单图一致性增强: 对于单图输入,Qwen-Image-Edit-2509 显著提高了一致性,主要体现在以下方面: 人物编辑一致性增强: 增强人脸ID保持,支持各种形象照片、姿势变换; 商品编辑一致性增强: 增强商品ID保持,支持商品海报编辑; 文字编辑一致性增强: 除了支持文字内容修改外,还支持多种文字的字体、色彩、材质编辑; 原生支持ControlNet: 包括深度图、边缘图、关键点图等 Qwen-Image-Edit-2509 的首要更新是支持了多图输入。 先看一个“人物+人物”的例子: 再看一个“人物+场景”的例子: 下面是一...
相关文章
文章评论
共有0条评论来说两句吧...