您现在的位置是:首页 > 文章详情

Qwen3-LiveTranslate 发布:视、听、说全模态同传大模型

日期:2025-09-24点击:56

阿里通义Qwen团队宣布推出Qwen3-LiveTranslate-Flash,这是一款基于大语言模型的高精度、高响应、高鲁棒性的多语言实时音视频同传模型。

依托Qwen3-Omni强大的基座能力、海量多模态数据、百万小时音视频数据,Qwen3-LiveTranslate-Flash 实现了覆盖18种语言的离线和实时两种音视频翻译能力。

 

核心亮点

  • 多语言和方言:支持中文、英文、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语、印尼语、泰语、越南语、阿拉伯语、印地语、希腊语、土耳其语等主要官方语言和普通话、粤语、北京话、吴话、四川话、天津话的方言翻译。

  • 视觉增强:首次引入视觉上下文增强技术,让 Qwen3-LiveTranslate-Flash 不仅“听得懂”,还能“看得懂”,通过识别和利用口型、动作、文字、实体等多模态信息,有效应对嘈杂音频环境以及一词多译词场景下的翻译不准问题。

  • 3秒延迟:轻量的混合专家架构与动态采样策略实现最低3秒延迟的同传体验。

  • 无损同传:采用语义单元预测技术缓解跨语言翻译的调序问题,实现与离线翻译几乎无损的翻译质量。

  • 音色自然:海量语音数据训练,可以根据原始语音内容自适应调节语气和表现力的拟人音色。

模型性能

在公开测试集上中英及多语言语音翻译,Qwen3-LiveTranslate-Flash 的准确度显著优于当前主流大模型 Gemini-2.5-Flash、GPT-4o-Audio-Preview 和 Voxtral Small-24B 等。

Qwen3-LiveTranslate-Flash 在不同领域和复杂声学环境下均展现出持续领先的翻译性能。

Qwen3-LiveTranslate-Flash 在嘈杂音频、一词多译、专有名词翻译等场景翻译更精准。在实时场景中,视觉信息弥补了语音上下文的缺失,优势更明显。

原文链接:https://www.oschina.net/news/374128
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章