阿里通义开源语音识别模型 Qwen3-ASR,支持多语言和中文方言语音
阿里通义 Qwen 正式开源 Qwen3-ASR 系列语音识别模型,包括两个强大且全面的语音识别模型 Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。Qwen3-ASR 系列的语音识别模型支持 52 个语种与方言的语种识别与语音识别。 Qwen3-ASR核心特性 All-in-one: Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 均通过单一模型支持 30 个语种的语种识别与语音识别、22 个中文口音与方言语音识别、多个国家与地区的英文口音识别。 准确而快速的语音识别能力:在复杂的声学环境与文本模式的场景下,Qwen3-ASR 系列模型均能保持稳定鲁棒的语音识别能力,包括歌唱识别等。Qwen3-ASR-1.7B 实现了语音识别准确率的全面领先,在开源与闭源自建评测上较主流开源模型与众多商用 API 上更优。0.6B 模型则实现了性能与效率的均衡,在异步推理模式下,128 并发的该模型能够达到 2000 倍的吞吐,处理 5 个小...
