小红书发布首个开源大模型 dots.llm1
小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队宣布首次开源文本大模型 dots.llm1,一个中等规模的Mixture of Experts (MoE)文本大模型。hi lab团队开源了所有模型和必要的训练信息,包括Instruct模型、长文base模型、退火阶段前后的多个base模型及超参数等内容。
dots.llm1的基本情况:
- 模型参数:总参数量142B、激活参数14B
- MoE配置:6in128 Expert、2个共享Expert
- 预训练数据:11.2T token高质量数据,显著优于开源数据
- 训练效率:基于Interleaved 1F1B 流水并行的AlltoAll overlap和高效Grouped GEMM的MoE训练框架
在预训练阶段,dots.llm1一共使用了11.2T 高质量token,然后经过两阶段sft训练,得到dots.llm1 base模型和instruct模型,在综合指标上打平Qwen2.5 72B模型,具体指标对照情况如下:
关于dots.llm1开源,hi lab团队声称其做到了迄今为止行业最大力度:
- 开源dots.llm1.inst模型,做到开箱即用
- 开源一系列pretrain base模型,包括预训练过程中每经过1T tokens后所保存的checkpoint——是目前开源中间checkpoint模型中,首个参数超过千亿的大模型
- 退火两阶段训练对应的模型checkpoint
- 长文base模型
- 详细介绍了lr schedule和batch size等信息,便于大家做Continue Pretraining和Supervised Fine-tuning
- 基于Interleaved 1F1B流水并行的AlltoAll overlap优化已经提交至NVIDIA Megatron-LM社区,会在未来一段时间正式发版
更多详情可查看官方公告。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Meta 或投数十亿美元押注 AI 独角兽 Scale AI
据美媒报道,美国社交媒体巨头Meta Platforms正洽谈向AI数据标注初创公司Scale AI投资数十亿美元的投资,该笔融资的价值可能超过100亿美元。这将是Meta有史以来最大的外部AI投资。目前交易条款尚未最终确定,仍存在调整空间。 Scale AI由两位华人Alexandr Wang和Lucy Guo创立于2016年,作为AI训练数据供应链中的关键一环,Scale通过大规模合同工队伍整理、标注图像、文本等多模态数据,支撑着AI模型的训练需求,其客户包括OpenAI、微软、Meta、英伟达、美国国防部等。 优质数据的重要性毋庸置疑,AI性能高低往往由数据质量决定,Scale正是凭借这一核心能力成为资本竞逐的对象,估值亦节节攀升。 2024年5月,Scale AI宣布完成10亿美元F轮融资,估值达138亿美元。此次融资由Accel领投,英伟达、Y Combinator、老虎环球基金、亚马逊、Meta、AMD、英特尔、思科、Service Now等参投。 而今年3月底,Scale AI被曝估值再次大涨,其寻求在潜在的要约收购中获得至多250亿美元。与此同时,Scale AI正处于...
- 下一篇
OpenBMB 发布 MiniCPM4 系列模型,专为端侧设备优化
OpenBMB 发布了 MiniCPM4 系列高效大语言模型,该系列专为端侧设备设计,通过在模型架构、训练数据、训练算法和推理系统四个维度的系统性创新,实现了效率的提升。 MiniCPM4 系列包括多个模型,具体如下: 模型名称 主要特点/用途 MiniCPM4-8B 旗舰模型,80亿参数,8Ttoken训练 MiniCPM4-0.5B 小型版,5亿参数,1Ttoken训练 MiniCPM4-8B-Eagle-FRSpec MiniCPM4-8B 推理加速 Eagle head 模型 MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu MiniCPM4-8B 推理加速 Eagle head 模型 (QAT) MiniCPM4-8B-Eagle-vLLM MiniCPM4-8B 推理加速 Eagle head 模型 (vLLM) MiniCPM4-8B-marlin-Eagle-vLLM MiniCPM4-8B 推理加速 Eagle head 模型 (marlin, vLLM) BitCPM4-0.5B 极端三元量化模型,参数压缩至三元值,实现90%位宽缩减 BitCP...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS8编译安装MySQL8.0.19
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6