开源大模型 MaLA-500 发布,支持 534 种语言
大语言模型推进了自然语言处理的最先进水平。然而,它们的主要设计针对英语或有限的一组语言,这在它们对资源匮乏的语言的有效性方面造成了巨大的差距。为了弥补这一差距,慕尼黑大学、赫尔辛基大学等研究人员联合开源了 MaLA-500,旨在涵盖广泛的 534 种语言。
MaLA-500 基于 LLaMA 2 7B 构建,再用多语言数据集 Glot500-c 进行语言扩展训练。研究人员在 SIB-200 上的实验结果表明,MaLA-500 已经实现了最先进的上下文学习结果。
Glot500-c 包含了 534 种语言,涵盖 47 种不同种族语言,数据量高达2万亿tokens。研究人员表示,选择 Glot500-c 数据集的原因在于可以大幅扩展现有语言模型的语言覆盖范围,并包含极其丰富的语言家族,这对于模型学习语言内在的语法和语义规律帮助巨大。
此外,虽然一些高资源语言的比例相对较低,但 Glot500-c 的整体数据量对训练大规模语言模型而言足够用。在后续的预处理中,又对语料数据集进行了加权随机采样,以增加低资源语言在训练数据中的比例,让模型更加聚焦特定语言。
在 LLaMA 2-7B 基础之上,MaLA-500 进行了两大技术点创新:
- 增强词汇表,研究人员通过Glot500-c数据集,训练了一个多语言分词器,将LLaMA 2的原英文词汇表扩展到了260万,大幅增强了模型对非英语和低资源语言的适配能力。
- 模型增强,使用了LoRA技术在LLaMA 2的基础上进行低秩适配。只训练适配矩阵而冻结基础模型权重,可以高效地实现模型在新语言上的持续学习能力,同时保留模型原有的知识。
训练流程
训练方面,研究人员用了24张N卡A100 GPU进行训练,并使用了包括Transformers、PEFT和DeepSpeed三个主流深度学习框架。
其中,DeepSpeed提供了分布式训练的支持,可以实现模型并行;PEFT实现了高效的模型微调;Transformers提供了模型功能的实现,例如,文本生成、提示词理解等。
为了提升训练的高效性,MaLA-500还使用了各种显存和计算优化算法,如ZeRO冗余优化器,可最大化利用GPU算力资源;以及混合精度训练的bfloat16数格式加速训练流程。
此外,研究人员还对模型参数进行了大量优化,使用了学习率为2e-4的常规SGD训练,并使用了0.01的L2权重衰减以防止模型过大,出现过拟合、内容输出不稳定等情况。
为了测试MaLA-500的性能,研究人员在SIB-200等数据集上进行了综合实验。
结果显示,相比原始LLaMA 2模型,MaLA-500在主题分类等评测任务上的准确率提高了12.16%,这说明MaLA-500的多语言优于,现有的众多开源大语言模型。
更多详情可查看完整论文。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
中国信通院牵头制定的软件安全相关团体标准正式发布
2024年1月29日,由中国信息通信研究院(简称“中国信通院”)牵头制定的软件安全相关团体标准《软件安全开发能力评估技术规范》(标准编号T/ISC 0042—2024)、《软件代码自主率测评方法》(标准编号T/ISC 0043—2024)、《软件供应链安全要求》(标准编号T/ISC 0044—2024)正式批准发布。软件安全相关团体标准于2023年4月在中国互联网协会申请立项,由中国信通院数字安全护航计划组织起草,20余家单位共同参与编制。 软件安全相关团体标准围绕软件及应用安全开发体系在不同等级中的实践活动要求、对软件和应用产品代码自主率的技术要求、对自身的软件供应链安全的建设、评估和改进三个方面进行编写。主要提出三大核心内容: 01软件安全开发能力成熟度模型(SSDCMM) 模型分别由安全能力维度、能力成熟度等级维度、安全开发过程维度三个维度组成,覆盖需求、设计、编码、测试、部署/发布、运维全生命周期开发阶段,以业务安全和信息安全为出发点,通过对流程、制度、规范的梳理,以及开展相关人员安全意识的培训、威胁资源库、安全测试资源库等相关资源的建设,充分保障业务系统满足业务安全和信息安全...
- 下一篇
ONLYOFFICE 文档开发者版 8.0:API 和文档生成器更新
随着8.0 版新功能的发布,ONLYOFFICE 团队更新了编辑器、文档生成器和插件的 API。请阅读本文了解详情。 PDF 支持 ONLYOFFICE 在documentType参数中添加了pdf文档这一类型。现在完全支持PDF文件*,包括含有可填写字段的文件,并且可以在ONLYOFFICE PDF 编辑器中打开、批注和填写(以前此类文件被识别为文档并在文档编辑器中打开)。 var docEditor = new DocsAPI.DocEditor("placeholder", { "documentType": "pdf", *还有DjVu、OXPS和 XPS 用于处理表单的 API 添加到 Callback handler 的formsdataurl参数允许使用提交的表单数据定义JSON文件的URL。此文件包含以下参数: key tag value type(text, checkBox, picture, comboBox, dropDownList, dateTime, radio) 此外,您将在DocBuilder API中找到新的表单方法: ApiDocument...
相关文章
文章评论
共有0条评论来说两句吧...