小红书发布首个开源大模型 dots.llm1-低调大师

小红书发布首个开源大模型 dots.llm1

2025-06-09 160

小红书hi lab（Humane Intelligence Lab，人文智能实验室）团队宣布首次开源文本大模型 dots.llm1，一个中等规模的Mixture of Experts (MoE)文本大模型。hi lab团队开源了所有模型和必要的训练信息，包括Instruct模型、长文base模型、退火阶段前后的多个base模型及超参数等内容。

dots.llm1的基本情况：

模型参数：总参数量142B、激活参数14B
MoE配置：6in128 Expert、2个共享Expert
预训练数据：11.2T token高质量数据，显著优于开源数据
训练效率：基于Interleaved 1F1B 流水并行的AlltoAll overlap和高效Grouped GEMM的MoE训练框架

在预训练阶段，dots.llm1一共使用了11.2T 高质量token，然后经过两阶段sft训练，得到dots.llm1 base模型和instruct模型，在综合指标上打平Qwen2.5 72B模型，具体指标对照情况如下：

关于dots.llm1开源，hi lab团队声称其做到了迄今为止行业最大力度：

开源dots.llm1.inst模型，做到开箱即用
开源一系列pretrain base模型，包括预训练过程中每经过1T tokens后所保存的checkpoint——是目前开源中间checkpoint模型中，首个参数超过千亿的大模型
退火两阶段训练对应的模型checkpoint
长文base模型
详细介绍了lr schedule和batch size等信息，便于大家做Continue Pretraining和Supervised Fine-tuning
基于Interleaved 1F1B流水并行的AlltoAll overlap优化已经提交至NVIDIA Megatron-LM社区，会在未来一段时间正式发版

更多详情可查看官方公告。

微信关注我们

原文链接：https://www.oschina.net/news/354326

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Meta 或投数十亿美元押注 AI 独角兽 Scale AI

据美媒报道，美国社交媒体巨头Meta Platforms正洽谈向AI数据标注初创公司Scale AI投资数十亿美元的投资，该笔融资的价值可能超过100亿美元。这将是Meta有史以来最大的外部AI投资。目前交易条款尚未最终确定，仍存在调整空间。 Scale AI由两位华人Alexandr Wang和Lucy Guo创立于2016年，作为AI训练数据供应链中的关键一环，Scale通过大规模合同工队伍整理、标注图像、文本等多模态数据，支撑着AI模型的训练需求，其客户包括OpenAI、微软、Meta、英伟达、美国国防部等。优质数据的重要性毋庸置疑，AI性能高低往往由数据质量决定，Scale正是凭借这一核心能力成为资本竞逐的对象，估值亦节节攀升。 2024年5月，Scale AI宣布完成10亿美元F轮融资，估值达138亿美元。此次融资由Accel领投，英伟达、Y Combinator、老虎环球基金、亚马逊、Meta、AMD、英特尔、思科、Service Now等参投。而今年3月底，Scale AI被曝估值再次大涨，其寻求在潜在的要约收购中获得至多250亿美元。与此同时，Scale AI正处于...

2025-06-09

157

OpenBMB 发布了 MiniCPM4 系列高效大语言模型，该系列专为端侧设备设计，通过在模型架构、训练数据、训练算法和推理系统四个维度的系统性创新，实现了效率的提升。 MiniCPM4 系列包括多个模型，具体如下：模型名称主要特点/用途 MiniCPM4-8B 旗舰模型，80亿参数，8Ttoken训练 MiniCPM4-0.5B 小型版，5亿参数，1Ttoken训练 MiniCPM4-8B-Eagle-FRSpec MiniCPM4-8B 推理加速 Eagle head 模型 MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu MiniCPM4-8B 推理加速 Eagle head 模型 (QAT) MiniCPM4-8B-Eagle-vLLM MiniCPM4-8B 推理加速 Eagle head 模型 (vLLM) MiniCPM4-8B-marlin-Eagle-vLLM MiniCPM4-8B 推理加速 Eagle head 模型 (marlin, vLLM) BitCPM4-0.5B 极端三元量化模型，参数压缩至三元值，实现90%位宽缩减 BitCP...

2025-06-09

159

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。