Qwen3-LiveTranslate 发布:视、听、说全模态同传大模型
阿里通义Qwen团队宣布推出Qwen3-LiveTranslate-Flash,这是一款基于大语言模型的高精度、高响应、高鲁棒性的多语言实时音视频同传模型。
依托Qwen3-Omni强大的基座能力、海量多模态数据、百万小时音视频数据,Qwen3-LiveTranslate-Flash 实现了覆盖18种语言的离线和实时两种音视频翻译能力。
核心亮点
-
多语言和方言:支持中文、英文、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语、印尼语、泰语、越南语、阿拉伯语、印地语、希腊语、土耳其语等主要官方语言和普通话、粤语、北京话、吴话、四川话、天津话的方言翻译。
-
视觉增强:首次引入视觉上下文增强技术,让 Qwen3-LiveTranslate-Flash 不仅“听得懂”,还能“看得懂”,通过识别和利用口型、动作、文字、实体等多模态信息,有效应对嘈杂音频环境以及一词多译词场景下的翻译不准问题。
-
3秒延迟:轻量的混合专家架构与动态采样策略实现最低3秒延迟的同传体验。
-
无损同传:采用语义单元预测技术缓解跨语言翻译的调序问题,实现与离线翻译几乎无损的翻译质量。
-
音色自然:海量语音数据训练,可以根据原始语音内容自适应调节语气和表现力的拟人音色。
模型性能
在公开测试集上中英及多语言语音翻译,Qwen3-LiveTranslate-Flash 的准确度显著优于当前主流大模型 Gemini-2.5-Flash、GPT-4o-Audio-Preview 和 Voxtral Small-24B 等。
Qwen3-LiveTranslate-Flash 在不同领域和复杂声学环境下均展现出持续领先的翻译性能。
Qwen3-LiveTranslate-Flash 在嘈杂音频、一词多译、专有名词翻译等场景翻译更精准。在实时场景中,视觉信息弥补了语音上下文的缺失,优势更明显。



