东北大学“小牛翻译”团队最近提出了以中文和英文为双中心的多语言翻译模型 LMT (Large-scale Multilingual Translation)。LMT覆盖60种语言、234个方向,包括英↔59语种及中↔58语种方向,覆盖了全球主要语言家族与广泛使用语言。
支持语言:
|
语言资源
|
语言列表
|
|
高资源13种
|
阿拉伯语(ar)、英语(en)、西班牙语(es)、德语(de)、法语(fr)、意大利语(it)、日语(ja)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、土耳其语(tr)、中文(zh)
|
|
中资源18种
|
保加利亚语(bg)、孟加拉语(bn)、捷克语(cs)、丹麦语(da)、现代希腊语(el)、波斯语(fa)、芬兰语(fi)、印地语(hi)、匈牙利语(hu)、印度尼西亚语(id)、韩语(ko)、挪威语(no)、罗马尼亚语(ro)、斯洛伐克语(sk)、瑞典语(sv)、泰语(th)、乌克兰语(uk)、越南语(vi)
|
|
低资源29种
|
阿姆哈拉语(am)、阿塞拜疆语(az)、藏语(bo)、希伯来语(he)、克罗地亚语(hr)、亚美尼亚语(hy)、冰岛语(is)、爪哇语(jv)、格鲁吉亚语(ka)、哈萨克语(kk)、高棉语(km)、柯尔克孜语(ky)、老挝语(lo)、中国蒙古语(mn_cn)、马拉地语(mr)、马来语(ms)、缅甸语(my)、尼泊尔语(ne)、普什图语(ps)、僧伽罗语(si)、斯瓦希里语(sw)、泰米尔语(ta)、泰卢固语(te)、塔吉克语(tg)、他加禄语(tl)、维吾尔语(ug)、乌尔都语(ur)、乌兹别克语(uz)、粤语(yue)
|
在 FLORES-200 基准上,LMT 在同等语言覆盖规模的模型中取得了SOTA性能,实现了较广泛的语言覆盖度和全面的翻译能力。
![]()
LMT基于Qwen3系列模型构建,采用主流的两阶段训练流程:
-
继续预训练(Continued Pre-training, CPT):在混合单语与双语的大规模语料上继续预训练,广泛提升模型的多语言翻译能力。
-
有监督微调(Supervised Fine-tuning, SFT):利用高质量的人工标注平行数据进行指令微调,进一步增强模型翻译性能。
其中,CPT的规模约 90B tokens,每个语言方向按照1:1:1 比例混合单语、中文中心双语与英文中心双语。
SFT使用公开的高质量人工标准数据集,包括FLORES-200 Dev, NTREX-128, SMol, WMT14-23,IWSLT17-24测试集共计约 567K 条,覆盖 117 个翻译方向,每个翻译方向大约 3K–20K条样本。
LMT现已开源,共包含四种规模:0.6B/1.7B/4B/8B。
GitHub:https://github.com/NiuTrans/LMT
Huggingface:
- https://huggingface.co/NiuTrans/LMT-60-0.6B
- https://huggingface.co/NiuTrans/LMT-60-1.7B
- https://huggingface.co/NiuTrans/LMT-60-4B
- https://huggingface.co/NiuTrans/LMT-60-8B