Qwen3-LiveTranslate 发布:视、听、说全模态同传大模型
阿里通义Qwen团队宣布推出Qwen3-LiveTranslate-Flash,这是一款基于大语言模型的高精度、高响应、高鲁棒性的多语言实时音视频同传模型。 依托Qwen3-Omni强大的基座能力、海量多模态数据、百万小时音视频数据,Qwen3-LiveTranslate-Flash 实现了覆盖18种语言的离线和实时两种音视频翻译能力。 核心亮点 多语言和方言:支持中文、英文、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语、印尼语、泰语、越南语、阿拉伯语、印地语、希腊语、土耳其语等主要官方语言和普通话、粤语、北京话、吴话、四川话、天津话的方言翻译。 视觉增强:首次引入视觉上下文增强技术,让 Qwen3-LiveTranslate-Flash 不仅“听得懂”,还能“看得懂”,通过识别和利用口型、动作、文字、实体等多模态信息,有效应对嘈杂音频环境以及一词多译词场景下的翻译不准问题。 3秒延迟:轻量的混合专家架构与动态采样策略实现最低3秒延迟的同传体验。 无损同传:采用语义单元预测技术缓解跨语言翻译的调序问题,实现与离线翻译几乎无损的翻译质量。 音色自然:海量语音数据训练,可以...
