您现在的位置是:首页 > 文章详情

阿里通义发布语音识别模型 Qwen3-ASR-Flash

日期:2025-09-09点击:10

通义千问系列最新的语音识别模型 Qwen3-ASR-Flash已正式发布,它基于Qwen3基座模型,经海量多模态数据以及千万⼩时规模的ASR(自动语音识别)数据训练构建而成。

Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能,⽀持11种语⾔和多种⼝⾳。与众不同的是,Qwen3-ASR-Flash⽀持⽤户以任意格式提供⽂本上下⽂,从⽽获得定制化的 ASR 结果,同时还⽀持歌声识别。

 

Qwen3-ASR-Flash 单模型支持多种语言、方言和口音的精准转录:

  • 中文:包括普通话以及四川话、闽南语、吴语、粤语等主要方言。

  • 英语:支持英式、美式及多种其他地区口音。

  • 其他支持语言:法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

Qwen3-ASR-Flash的核心特性:

  • 领先的识别准确率:Qwen3-ASR-Flash在多个中英文,多语种benchmark测试中表现最优。

  • 惊艳的歌声识别能力:支持歌唱识别,包括清唱与带bgm的整歌识别,实测错误率低于8%。

  • 定制化识别:用户可以以任意格式(如词汇表、段落或完整文档)提供背景文本,模型能智能利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。

  • 语种识别与非人声拒识:模型能精确分辨语音的语种,自动过滤非语音片段,包括静音和背景噪声。

  • 鲁棒性:面对长难句、句中语言切换和重复词语等困难文本模式,以及在复杂的声学环境中,模型仍能保持高准确率。

体验方式:

ModelScopehttps://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

HuggingFace: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百炼APIhttps://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

原文链接:https://www.oschina.net/news/371054
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章