阿里通义发布旗舰语音合成模型 Qwen3-TTS-Flash-低调大师

阿里通义发布旗舰语音合成模型 Qwen3-TTS-Flash

2025-09-23 216

阿里通义Qwen团队宣布推出旗舰级多语言多音色文本转语音模型Qwen3-TTS-Flash，该模型支持多语言、多音色及多种汉语方言，在seed-tts-eval与MiniMax多语测试集上取得了SOTA级别的稳定性和相似度，并同步上线了API、Demo与多段音频样例。

官方团队称他们对Qwen3-TTS-Flash在语音稳定性和音色相似度方面进行了全面评估，结果显示其在多项指标上都达到了SOTA性能。

具体来说，在seed-tts-eval test set上，Qwen3-TTS-Flash在中英文的语音稳定性表现上均取得了SOTA成绩，超越了SeedTTS、MiniMax和GPT-4o-Audio-Preview。

此外，在MiniMax TTS multilingual test set上，Qwen3-TTS-Flash在中文、英文、意大利语和法语的WER均达到了SOTA，显著低于MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在说话人相似度方面，Qwen3-TTS-Flash在英文、意大利语和法语均超过了上述模型，在多语言的语音稳定性和音色相似度上展现出了卓越的表现。

Qwen3-TTS-Flash定位为旗舰语音合成模型，采用统一架构，支持17种音色，每种音色均可输出10种语言。它覆盖了普通话以及闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等9种汉语方言。

同时，模型还提供英式、美式及其他地区口音的英语，以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。

该模型具备自动语气调节、鲁棒的文本处理以及混合语种生成能力。在性能方面，单并发首包延迟最低为97ms，满并发首包延迟为420ms，RTF最低可达0.30。

微信关注我们

原文链接：https://www.oschina.net/news/373853

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

百度智能云开源视觉理解模型 Qianfan-VL

百度智能云千帆宣布开源发布全新视觉理解模型——Qianfan-VL。该系列包含3B、8B和70B三个尺寸版本，是面向企业级多模态应用场景，进行了深度优化的视觉理解大模型。公告称，Qianfan-VL不仅具备出色的基础通用能力，还针对产业落地中的高频需求，如OCR和教育垂直场景做了专项强化，使其在实际应用中表现更加卓越。即日起至10月10日，企业用户和开发者可在百度智能云千帆平台免费体验8B、70B模型。 Qianfan-VL 系列模型基于开源模型进行开发，并在百度自研昆仑芯P800上完成全流程计算任务。具备三大特点：多尺寸模型满足不同场景需求：提供3B、8B、70B三种规格的模型，让不同规模的企业和开发者都能找到合适的解决方案。提供思考推理能力：8B和70B模型支持通过特殊token激活思维链能力，覆盖复杂图表理解、视觉推理、数学解题等多种场景。 OCR与文档理解能力增强：主打OCR全场景识别和复杂版面文档理解两大特色能力，在多项基准测试中表现优异，为企业级应用提供高精度的视觉理解解决方案。一些测评结果如下：更多详情可查看官方公告。

2025-09-23

179

阿里通义 Qwen 团队宣布推出 Qwen-Image-Edit-2509，作为 Qwen-Image-Edit 的月迭代版本。相比于8月发布的 Qwen-Image-Edit，Qwen-Image-Edit-2509 的主要特性包括：多图编辑支持: 对于多图输入，Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 结构，通过拼接方式进一步训练，从而进行了支持。提供“人物+人物”，“人物+商品”，“人物+场景” 等多种玩法。单图一致性增强: 对于单图输入，Qwen-Image-Edit-2509 显著提高了一致性，主要体现在以下方面：人物编辑一致性增强: 增强人脸ID保持，支持各种形象照片、姿势变换；商品编辑一致性增强: 增强商品ID保持，支持商品海报编辑；文字编辑一致性增强: 除了支持文字内容修改外，还支持多种文字的字体、色彩、材质编辑；原生支持ControlNet: 包括深度图、边缘图、关键点图等 Qwen-Image-Edit-2509 的首要更新是支持了多图输入。先看一个“人物+人物”的例子：再看一个“人物+场景”的例子：下面是一...

2025-09-23

247

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。