阿里巴巴推出端到端语音识别大模型 FunAudio-ASR
阿里巴巴通义实验室宣布正式推出 FunAudio-ASR —— 一款专为解决企业落地难题而生的端到端语音识别大模型。它不仅拥有高精度的通用识别能力,还通过创新的 Context 增强模块,针对性优化了“幻觉”、“串语种”等工业场景中的关键问题。 这个模型的最大亮点在于它的创新 “Context 模块”,让高噪声环境下的语音识别准确率得到了显著提升,幻觉率从78.5% 大幅降低至10.7%,降幅近乎70%。这一技术突破为语音识别行业树立了新的标杆,尤其适用于嘈杂的场合,如会议、公共场所等。 FunAudio-ASR 模型在训练过程中使用了数千万小时的音频数据,并将大语言模型的语义理解能力融入其中,使其在远场、嘈杂和多说话人等复杂条件下的表现,已经超越了诸如 Seed-ASR、KimiAudio-8B 等众多主流语音识别系统。通过这一技术的应用,用户在进行语音识别时,能够享受到更清晰、更精准的识别效果。 除了完整版本外,阿里还推出了轻量化版本 FunAudio-ASR-nano。该版本在保持高识别准确率的同时,降低了推理成本,适合那些对资源要求较高的部署环境。无论是大企业还是小型团队,都能...

