东北大学“小牛翻译”团队发布并开源机器翻译大模型 NiuTrans.LMT-低调大师

东北大学“小牛翻译”团队发布并开源机器翻译大模型 NiuTrans.LMT

2025-11-12 55

东北大学“小牛翻译”团队最近提出了以中文和英文为双中心的多语言翻译模型 LMT (Large-scale Multilingual Translation)。LMT覆盖60种语言、234个方向，包括英↔59语种及中↔58语种方向，覆盖了全球主要语言家族与广泛使用语言。

支持语言：

语言资源	语言列表
高资源13种	阿拉伯语(ar)、英语(en)、西班牙语(es)、德语(de)、法语(fr)、意大利语(it)、日语(ja)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、土耳其语(tr)、中文(zh)
中资源18种	保加利亚语(bg)、孟加拉语(bn)、捷克语(cs)、丹麦语(da)、现代希腊语(el)、波斯语(fa)、芬兰语(fi)、印地语(hi)、匈牙利语(hu)、印度尼西亚语(id)、韩语(ko)、挪威语(no)、罗马尼亚语(ro)、斯洛伐克语(sk)、瑞典语(sv)、泰语(th)、乌克兰语(uk)、越南语(vi)
低资源29种	阿姆哈拉语(am)、阿塞拜疆语(az)、藏语(bo)、希伯来语(he)、克罗地亚语(hr)、亚美尼亚语(hy)、冰岛语(is)、爪哇语(jv)、格鲁吉亚语(ka)、哈萨克语(kk)、高棉语(km)、柯尔克孜语(ky)、老挝语(lo)、中国蒙古语(mn_cn)、马拉地语(mr)、马来语(ms)、缅甸语(my)、尼泊尔语(ne)、普什图语(ps)、僧伽罗语(si)、斯瓦希里语(sw)、泰米尔语(ta)、泰卢固语(te)、塔吉克语(tg)、他加禄语(tl)、维吾尔语(ug)、乌尔都语(ur)、乌兹别克语(uz)、粤语(yue)

在 FLORES-200 基准上，LMT 在同等语言覆盖规模的模型中取得了SOTA性能，实现了较广泛的语言覆盖度和全面的翻译能力。

LMT基于Qwen3系列模型构建，采用主流的两阶段训练流程：

继续预训练（Continued Pre-training, CPT）：在混合单语与双语的大规模语料上继续预训练，广泛提升模型的多语言翻译能力。
有监督微调（Supervised Fine-tuning, SFT）：利用高质量的人工标注平行数据进行指令微调，进一步增强模型翻译性能。

其中，CPT的规模约 90B tokens，每个语言方向按照1:1:1 比例混合单语、中文中心双语与英文中心双语。

SFT使用公开的高质量人工标准数据集，包括FLORES-200 Dev, NTREX-128, SMol, WMT14-23，IWSLT17-24测试集共计约 567K 条，覆盖 117 个翻译方向，每个翻译方向大约 3K–20K条样本。

LMT现已开源，共包含四种规模：0.6B/1.7B/4B/8B。

GitHub：https://github.com/NiuTrans/LMT

Huggingface：

https://huggingface.co/NiuTrans/LMT-60-0.6B
https://huggingface.co/NiuTrans/LMT-60-1.7B
https://huggingface.co/NiuTrans/LMT-60-4B
https://huggingface.co/NiuTrans/LMT-60-8B

微信关注我们

原文链接：https://www.oschina.net/news/383196

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2032 年全球 AI 医疗影像市场规模将突破 130 亿美元

研究机构 DelveInsight最新报告指出，全球AI医疗影像市场规模预计将从2024年的16亿美元飙升至2032年的约130亿美元，年复合增长率约29%。这一增长势头得益于技术突破、政府支持与资本加码。报告指出，深度学习、机器学习与计算机视觉的快速进步正显著提升影像诊断的准确性与效率。AI不仅能辅助医生发现细微病变，还可通过预测分析优化治疗决策，大幅缩短诊断时间，改善患者预后。从产业格局看，通用电气医疗（GE HealthCare）、西门子医疗、飞利浦、富士胶片、佳能医疗、IBM Watson Health、Aidoc、Qure.ai 等国际巨头正积极布局AI影像业务，并通过并购与合作加速创新落地。市场竞争正从“设备智能化”转向“系统协同化”，软件算法与临床整合成为新焦点。北美在该领域依旧占据主导地位，2024年市场份额高达42%。美国凭借雄厚的医疗基础、AI研发投入与FDA 加速审批机制，成为全球AI影像应用的中心。欧洲则以德国、英国、法国为代表，加快推进数字医疗转型与精准医学落地;而亚太地区增长最为迅速，中国、日本、韩国与印度正大力投资AI诊断基础设施，推动医疗智能化普及...

2025-11-12

62

众所周知，在数据库的世界里，性能、稳定性与成本的平衡始终是开发者和企业运维的核心命题。随着业务规模扩张与数据量激增，一些数据库在高并发场景下的性能瓶颈、复杂运维带来的效率损耗，以及兼容性不足引发的迁移痛点，逐渐成为制约项目迭代的关键因素。 2025 年金秋，天翼云 OpenTeleDB 正式开源，为这场数据库选型“困境”提供了全新的破局思路—— 原生兼容主流数据库协议，降低迁移门槛极致的性能优化突破高并发瓶颈轻量化运维设计大幅降低人力成本... OpenTeleDB 凭借其卓越的技术优势与广阔的适配价值，逐渐走进许多团队和创业者的选型思考中。为了让更多开发者和运维人员少走弯路，让真实的选型智慧与迁移经验被看见、被复用，开源中国特此发起《从初识到实战 | OpenTeleDB 数据库线上征文活动》，通过这些试用、实战心得，联结更多有热情有理想的开发者，碰撞出不一样的火花，一同挖掘 OpenTeleDB 的创新之道。 OpenTeleDB 数据库开源社区：https://openteledb.ctyun.cn/open/index OpenTeleDB 代码仓：https://git...

2025-11-13

62

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。