您现在的位置是:首页 > 文章详情

字节发布端到端同声传译模型 Seed LiveInterpret 2.0

日期:2025-07-24点击:28

字节跳动 Seed 团队宣布正式推出端到端同声传译模型 Seed LiveInterpret 2.0 —— 首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界SOTA的同时,实现了极低的语音延迟水平。

公告称,Seed LiveInterpret 2.0 基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,像人类同传译员一样以极低的延迟 “边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,让沟通更加流畅自然。

在测试中,Seed LiveInterpret 2.0 面对 40 秒的大段中文表达,能够低延迟地丝滑输出同款音色的英语翻译。Seed LiveInterpret 2.0 还能快速学习音色,即便此前未“听”过角色的声音,依然能通过实时交互进行现场演绎。

相比传统机器同传系统,Seed LiveInterpret 2.0 模型具备以下优势:

  • 接近真人同传的翻译准确率

精准的语音理解能力保障了翻译准确度,在多人会议等复杂场景中英双向翻译准确率超 70%,单人演讲翻译准确率超 80%,接近真人专业同传水平。

  • 极低延迟的 “边听边说” 能力

采用全双工语音理解生成框架,翻译延迟可低至 2-3 秒,较传统机器同传系统降低超 60%,实现了真正的 “边听边说” 翻译。

  • 零样本声音复刻,音色真实自然

只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时 “说出” 外语,提升交流的沉浸感和亲和力。

  • 智能平衡翻译质量、延迟和语音输出节奏

可根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。面对超长信息,依然能保证传译语音节奏的自然流畅。

目前,Seed LiveInterpret 2.0 技术报告已公布,模型基于火山引擎对外开放。此外,Ola Friend 耳机也将在 8 月底接入 Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。

评测结果显示,在语音到文本的同传任务中,Seed LiveInterpret 2.0 中英互译平均翻译质量的人类评分达到 74.8(满分 100,评估译文准确率),较排名第二的基准系统(47.3 分)超出 58%。

在语音到语音中英同传任务中,仅 3 个测评的翻译系统支持该能力,其中 Seed LiveInterpret 2.0 中英互译平均翻译质量达到 66.3 分(满分 100,除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标),远超其他基准系统,达到接近专业真人同传的水平。同时,大部分基准系统也不支持声音复刻功能。

在延迟表现上,Seed LiveInterpret 2.0 在语音到文本场景中,输出首字平均延迟仅 2.21 秒,在语音到语音场景中,输出延时仅 2.53 秒,做到了对翻译质量以及时延的均衡。

不过,字节方面也坦承尽管 Seed LiveInterpret 2.0 已初步展现出一定优势,其边界仍有拓展空间。比如,在语言覆盖方面,目前模型主要支持中英互译,其他语种尚未较好支持。此外,其声音复刻的稳定性、语音表现力、情绪复刻能力、极复杂情况下的翻译准确性等仍有进步空间。

更多详情可查看官方公告

原文链接:https://www.oschina.net/news/362097
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章