东北大学“小牛翻译”团队发布并开源机器翻译大模型 NiuTrans.LMT
东北大学“小牛翻译”团队最近提出了以中文和英文为双中心的多语言翻译模型 LMT (Large-scale Multilingual Translation)。LMT覆盖60种语言、234个方向,包括英↔59语种及中↔58语种方向,覆盖了全球主要语言家族与广泛使用语言。
支持语言:
|
语言资源 |
语言列表 |
|
高资源13种 |
阿拉伯语(ar)、英语(en)、西班牙语(es)、德语(de)、法语(fr)、意大利语(it)、日语(ja)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、土耳其语(tr)、中文(zh) |
|
中资源18种 |
保加利亚语(bg)、孟加拉语(bn)、捷克语(cs)、丹麦语(da)、现代希腊语(el)、波斯语(fa)、芬兰语(fi)、印地语(hi)、匈牙利语(hu)、印度尼西亚语(id)、韩语(ko)、挪威语(no)、罗马尼亚语(ro)、斯洛伐克语(sk)、瑞典语(sv)、泰语(th)、乌克兰语(uk)、越南语(vi) |
|
低资源29种 |
阿姆哈拉语(am)、阿塞拜疆语(az)、藏语(bo)、希伯来语(he)、克罗地亚语(hr)、亚美尼亚语(hy)、冰岛语(is)、爪哇语(jv)、格鲁吉亚语(ka)、哈萨克语(kk)、高棉语(km)、柯尔克孜语(ky)、老挝语(lo)、中国蒙古语(mn_cn)、马拉地语(mr)、马来语(ms)、缅甸语(my)、尼泊尔语(ne)、普什图语(ps)、僧伽罗语(si)、斯瓦希里语(sw)、泰米尔语(ta)、泰卢固语(te)、塔吉克语(tg)、他加禄语(tl)、维吾尔语(ug)、乌尔都语(ur)、乌兹别克语(uz)、粤语(yue) |
在 FLORES-200 基准上,LMT 在同等语言覆盖规模的模型中取得了SOTA性能,实现了较广泛的语言覆盖度和全面的翻译能力。
LMT基于Qwen3系列模型构建,采用主流的两阶段训练流程:
-
继续预训练(Continued Pre-training, CPT):在混合单语与双语的大规模语料上继续预训练,广泛提升模型的多语言翻译能力。
-
有监督微调(Supervised Fine-tuning, SFT):利用高质量的人工标注平行数据进行指令微调,进一步增强模型翻译性能。
其中,CPT的规模约 90B tokens,每个语言方向按照1:1:1 比例混合单语、中文中心双语与英文中心双语。
SFT使用公开的高质量人工标准数据集,包括FLORES-200 Dev, NTREX-128, SMol, WMT14-23,IWSLT17-24测试集共计约 567K 条,覆盖 117 个翻译方向,每个翻译方向大约 3K–20K条样本。
LMT现已开源,共包含四种规模:0.6B/1.7B/4B/8B。
GitHub:https://github.com/NiuTrans/LMT
Huggingface:
- https://huggingface.co/NiuTrans/LMT-60-0.6B
- https://huggingface.co/NiuTrans/LMT-60-1.7B
- https://huggingface.co/NiuTrans/LMT-60-4B
- https://huggingface.co/NiuTrans/LMT-60-8B
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
2032 年全球 AI 医疗影像市场规模将突破 130 亿美元
研究机构 DelveInsight最新报告指出,全球AI医疗影像市场规模预计将从2024年的16亿美元飙升至2032年的约130亿美元,年复合增长率约29%。这一增长势头得益于技术突破、政府支持与资本加码。 报告指出,深度学习、机器学习与计算机视觉的快速进步正显著提升影像诊断的准确性与效率。AI不仅能辅助医生发现细微病变,还可通过预测分析优化治疗决策,大幅缩短诊断时间,改善患者预后。 从产业格局看,通用电气医疗(GE HealthCare)、西门子医疗、飞利浦、富士胶片、佳能医疗、IBM Watson Health、Aidoc、Qure.ai 等国际巨头正积极布局AI影像业务,并通过并购与合作加速创新落地。市场竞争正从“设备智能化”转向“系统协同化”,软件算法与临床整合成为新焦点。 北美在该领域依旧占据主导地位,2024年市场份额高达42%。美国凭借雄厚的医疗基础、AI研发投入与FDA 加速审批机制,成为全球AI影像应用的中心。欧洲则以德国、英国、法国为代表,加快推进数字医疗转型与精准医学落地;而亚太地区增长最为迅速,中国、日本、韩国与印度正大力投资AI诊断基础设施,推动医疗智能化普及...
-
下一篇
从初识到实战 | OpenTeleDB 数据库线上征文活动
众所周知,在数据库的世界里,性能、稳定性与成本的平衡始终是开发者和企业运维的核心命题。随着业务规模扩张与数据量激增,一些数据库在高并发场景下的性能瓶颈、复杂运维带来的效率损耗,以及兼容性不足引发的迁移痛点,逐渐成为制约项目迭代的关键因素。 2025 年金秋,天翼云 OpenTeleDB 正式开源,为这场数据库选型“困境”提供了全新的破局思路—— 原生兼容主流数据库协议,降低迁移门槛 极致的性能优化突破高并发瓶颈 轻量化运维设计大幅降低人力成本... OpenTeleDB 凭借其卓越的技术优势与广阔的适配价值,逐渐走进许多团队和创业者的选型思考中。为了让更多开发者和运维人员少走弯路,让真实的选型智慧与迁移经验被看见、被复用,开源中国特此发起《从初识到实战 | OpenTeleDB 数据库线上征文活动》,通过这些试用、实战心得,联结更多有热情有理想的开发者,碰撞出不一样的火花,一同挖掘 OpenTeleDB 的创新之道。 OpenTeleDB 数据库开源社区 :https://openteledb.ctyun.cn/open/index OpenTeleDB 代码仓:https://git...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- MySQL数据库中FOR UPDATE的使用
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Mario游戏-低调大师作品
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7,8上快速安装Gitea,搭建Git服务器


微信收款码
支付宝收款码