您现在的位置是:首页 > 文章详情

东北大学“小牛翻译”团队发布并开源机器翻译大模型 NiuTrans.LMT

日期:2025-11-12点击:6

东北大学“小牛翻译”团队最近提出了以中文和英文为双中心的多语言翻译模型 LMT (Large-scale Multilingual Translation)。LMT覆盖60种语言、234个方向,包括英↔59语种及中↔58语种方向,覆盖了全球主要语言家族与广泛使用语言。

支持语言:

语言资源

语言列表

高资源13种

阿拉伯语(ar)、英语(en)、西班牙语(es)、德语(de)、法语(fr)、意大利语(it)、日语(ja)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、土耳其语(tr)、中文(zh)

中资源18种

保加利亚语(bg)、孟加拉语(bn)、捷克语(cs)、丹麦语(da)、现代希腊语(el)、波斯语(fa)、芬兰语(fi)、印地语(hi)、匈牙利语(hu)、印度尼西亚语(id)、韩语(ko)、挪威语(no)、罗马尼亚语(ro)、斯洛伐克语(sk)、瑞典语(sv)、泰语(th)、乌克兰语(uk)、越南语(vi)

低资源29种

阿姆哈拉语(am)、阿塞拜疆语(az)、藏语(bo)、希伯来语(he)、克罗地亚语(hr)、亚美尼亚语(hy)、冰岛语(is)、爪哇语(jv)、格鲁吉亚语(ka)、哈萨克语(kk)、高棉语(km)、柯尔克孜语(ky)、老挝语(lo)、中国蒙古语(mn_cn)、马拉地语(mr)、马来语(ms)、缅甸语(my)、尼泊尔语(ne)、普什图语(ps)、僧伽罗语(si)、斯瓦希里语(sw)、泰米尔语(ta)、泰卢固语(te)、塔吉克语(tg)、他加禄语(tl)、维吾尔语(ug)、乌尔都语(ur)、乌兹别克语(uz)、粤语(yue)

在 FLORES-200 基准上,LMT 在同等语言覆盖规模的模型中取得了SOTA性能,实现了较广泛的语言覆盖度全面的翻译能力

LMT基于Qwen3系列模型构建,采用主流的两阶段训练流程:

  • 继续预训练(Continued Pre-training, CPT):在混合单语与双语的大规模语料上继续预训练,广泛提升模型的多语言翻译能力。

  • 有监督微调(Supervised Fine-tuning, SFT):利用高质量的人工标注平行数据进行指令微调,进一步增强模型翻译性能。

其中,CPT的规模约 90B tokens,每个语言方向按照1:1:1 比例混合单语、中文中心双语与英文中心双语。

SFT使用公开的高质量人工标准数据集,包括FLORES-200 Dev, NTREX-128, SMol, WMT14-23,IWSLT17-24测试集共计约 567K 条,覆盖 117 个翻译方向,每个翻译方向大约 3K–20K条样本。

LMT现已开源,共包含四种规模:0.6B/1.7B/4B/8B。

GitHub:https://github.com/NiuTrans/LMT

Huggingface:

  • https://huggingface.co/NiuTrans/LMT-60-0.6B
  • https://huggingface.co/NiuTrans/LMT-60-1.7B
  • https://huggingface.co/NiuTrans/LMT-60-4B
  • https://huggingface.co/NiuTrans/LMT-60-8B
原文链接:https://www.oschina.net/news/383196
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章