阿里通义发布语音识别模型 Qwen3-ASR-Flash
通义千问系列最新的语音识别模型 Qwen3-ASR-Flash已正式发布,它基于Qwen3基座模型,经海量多模态数据以及千万⼩时规模的ASR(自动语音识别)数据训练构建而成。 Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能,⽀持11种语⾔和多种⼝⾳。与众不同的是,Qwen3-ASR-Flash⽀持⽤户以任意格式提供⽂本上下⽂,从⽽获得定制化的 ASR 结果,同时还⽀持歌声识别。 Qwen3-ASR-Flash 单模型支持多种语言、方言和口音的精准转录: 中文:包括普通话以及四川话、闽南语、吴语、粤语等主要方言。 英语:支持英式、美式及多种其他地区口音。 其他支持语言:法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。 Qwen3-ASR-Flash的核心特性: 领先的识别准确率:Qwen3-ASR-Flash在多个中英文,多语种benchmark测试中表现最优。 惊艳的歌声识别能力:支持歌唱识别,包括清唱与带bgm的整歌识别,实测错误率低于8%。 定制化识别:用户可以以任意格式(如词汇表、段落或完整文档)提供背景文本,模型能智能利用该上下文识别并...

