您现在的位置是:首页 > 文章详情

​小红书发布首个开源大模型 dots.llm1

日期:2025-06-09点击:13

小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队宣布首次开源文本大模型 dots.llm1,一个中等规模的Mixture of Experts (MoE)文本大模型。hi lab团队开源了所有模型和必要的训练信息,包括Instruct模型、长文base模型、退火阶段前后的多个base模型及超参数等内容。

dots.llm1的基本情况:

  • 模型参数:总参数量142B、激活参数14B
  • MoE配置:6in128 Expert、2个共享Expert
  • 预训练数据:11.2T token高质量数据,显著优于开源数据
  • 训练效率:基于Interleaved 1F1B 流水并行的AlltoAll overlap和高效Grouped GEMM的MoE训练框架

在预训练阶段,dots.llm1一共使用了11.2T 高质量token,然后经过两阶段sft训练,得到dots.llm1 base模型和instruct模型,在综合指标上打平Qwen2.5 72B模型,具体指标对照情况如下:

关于dots.llm1开源,hi lab团队声称其做到了迄今为止行业最大力度:

  • 开源dots.llm1.inst模型,做到开箱即用
  • 开源一系列pretrain base模型,包括预训练过程中每经过1T tokens后所保存的checkpoint——是目前开源中间checkpoint模型中,首个参数超过千亿的大模型
  • 退火两阶段训练对应的模型checkpoint
  • 长文base模型
  • 详细介绍了lr schedule和batch size等信息,便于大家做Continue Pretraining和Supervised Fine-tuning
  • 基于Interleave1F1B流水并行的AlltoAll overlap优化已经提交至NVIDIA Megatron-LM社区,会在未来一段时间正式发版

更多详情可查看官方公告

原文链接:https://www.oschina.net/news/354326
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章