昆仑万维开源 2 千亿稀疏大模型天工 MoE,能用 4090 推理
昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来, 是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型,也是首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。
“我们希望本次开源的 Skywork-MoE 模型、技术报告和相关的实验结果可以给开源社区贡献更多的 MoE 训练经验和 Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面, 探索用更低的训练推理成本训更大更强的模型,在通往 AGI 的道路上贡献一点力量。”
Skywork-MoE 的模型权重、技术报告完全开源,免费商用,无需申请:
- 模型权重下载:
- 模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE
- 模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
- 模型推理代码:(支持 8x4090 服务器上 8 bit 量化加载推理) https://github.com/SkyworkAI/vllm
模型架构:
本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为 146B,激活参数量 22B,共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。
天工 3.0 还训练了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)两档 MoE 模型,并不在此次开源之列。
模型能力:
基于目前各大主流模型评测榜单评测了 Skywork-MoE,在相同的激活参数量 20B(推理计算量)下,Skywork-MoE 能力在行业前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3,用更小的参数规模做到了相近的能力。
技术创新:
为了解决 MoE 模型训练困难,泛化性能差的问题,相较于 Mixtral-MoE, Skywork-MoE 设计了两种训练优化算法:
- Gating Logits 归一化操作
在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作,使得 Gating Layer 的参数学习更加趋向于被选中的 top-2 experts,增加 MoE 模型对于 top-2 的置信度:
- 自适应的 Aux Loss
有别于传统的固定系数(固定超参)的 aux loss, 项目团队在 MoE 训练的不同阶段让模型自适应的选择合适的 aux loss 超参系数,从而让 Drop Token Rate 保持在合适的区间内,既能做到 expert 分发的平衡,又能让 expert 学习具备差异化,从而提升模型整体的性能和泛化水平。在 MoE 训练的前期,由于参数学习不到位,导致 Drop Token Rate 太高(token 分布差异太大),此时需要较大的 aux loss 帮助 token load balance;在 MoE 训练的后期,其希望 Expert 之间仍保证一定的区分度,避免 Gating 倾向为随机分发 Token,因此需要较低的 aux loss 降低纠偏。
训练 Infra
如何对 MoE 模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最佳实践。Skywork-MoE 提出了两个重要的并行优化设计,从而在千卡集群上实现了 MFU 38% 的训练吞吐,其中 MFU 以 22B 的激活参数计算理论计算量。
- Expert Data Parallel
区别于 Megatron-LM 社区已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)设计,我们提出了一种称之为 Expert Data Parallel 的并行设计方案,这种并行方案可以在 Expert 数量较小时仍能高效的切分模型,对 Expert 引入的 all2all 通信也可以最大程度的优化和掩盖。相较于 EP 对 GPU 数量的限制和 ETP 在千卡集群上的低效, EDP 可以较好的解决大规模分布式训练 MoE 的并行痛点,同时 EDP 的设计简单、鲁棒、易扩展,可以较快的实现和验证。
一个最简单的 EDP 的例子,两卡情况下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel
- 非均匀切分流水并行
由于 first stage 的 Embedding 计算和 last stage 的 Loss 计算,以及 Pipeline Buffer 的存在, 流水并行下均匀切分 Layer 时的各 stage 计算负载和显存负载均有较明显的不均衡情况。项目团队提出了非均匀的流水并行切分和重计算 Layer 分配方式,使得总体的计算/显存负载更均衡,约有 10% 左右的端到端训练吞吐提升。
比较均匀切分和非均匀切分下的流水并行气泡:对于一个 24 层 Layer 的 LLM, (a) 是均匀切分成 4 个 stage,每个 stage 的 layer 数量是:[6, 6, 6, 6]. (b) 是经过优化后的非均匀切分方式,切成 5 个 stage, 每个 stage 的 layer 数量是:[5, 5, 5, 5, 4] , 在中间流水打满的阶段,非均匀切分的气泡更低。
MoE Know-how
此外,Skywork-MoE 还通过一系列基于 Scaling Laws 的实验,探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的好坏。
一个可以遵循的经验规则是:如果训练 MoE 模型的 FLOPs 是训练 Dense 模型的 2 倍以上,那么选择 from Scratch 训练 MoE 会更好,否则的话,选择 Upcycling 训练 MoE 可以明显减少训练成本。
4090 推理
Skywork-MoE 是目前能在 8x4090 服务器上推理的最大的开源 MoE 模型。8x4090 服务器一共有 192GB 的 GPU 显存,在 FP8 量化下(weight 占用 146GB),使用我们首创的非均匀 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合适的 batch size 内达到 2200 tokens/s 的吞吐。
天工团队完整开源了相关的推理框架代码和安装环境,详情参见:https://github.com/SkyworkAI/Skywork-MoE

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
大湾区首个大模型 AI 生态社区在深圳揭牌
2024深圳人工智能生态大会暨“模力营”AI生态社区揭牌仪式日前在深圳南山区举行。活动现场,大湾区首个专注大模型领域的旗舰孵化器——深圳“模力营”AI生态社区揭牌,首批11家人工智能企业签约入驻“模力营”。 深圳“模力营”AI生态社区是粤港澳大湾区首个垂直领域大模型生态系统,专注于构建集创新资源与高阶服务为一体的生态服务平台。 为此,深圳“模力营”汇聚AI应用所需的“稀缺资源”,重点打造七大核心公共服务平台,从算力供应服务、语料数据服务、大模型合规服务、大模型开源生态、AI硬件开发工具、融资对接服务、AI场景创新培育等领域赋能,精准匹配以大模型为核心的人工智能企业的关键诉求。 以紧缺的智能算力为例,深圳“模力营”用算力“优先使用权”缓解入驻企业的“焦虑”,与博大数据、前海深港人工智能算力中心等领先算力机构深度合作,优先保障入驻企业使用,同时对接优质云服务商,构建强大且稳定的算力资源池。 在深圳市和南山区政府的支持下,“模力营”将重点为入驻企业提供算力、空间、场景应用三方面支持,助力企业在此安心发展。 算力补贴方面,“模力营”为企业提供算力补贴支持,每年最高100万元。 空间布局方面,“...
- 下一篇
悟空刘歧 (Steven Liu) 成为 FFmpeg 社区委员会成员
FFmpeg 项目今日在邮件列表正式官宣新的Community Committee 成员:Steven Liu。据悉这是首位成为 FFmpeg 社区委员会成员的亚洲人。 FFmpeg 社区委员会 (Community Committee) 目前共 5 名成员,主要职责是规范开发者在邮件列表与 IRC 频道上的行为,维持工作环境,仲裁调解开发者之间的纠纷,是社区建设相关最终决策者。 viahttps://lists.ffmpeg.org/pipermail/ffmpeg-devel/2024-June/328921.html Steven Liu 是中国开发者刘歧——社区人称大师兄悟空。他是 FFmpeg 社区最活跃的贡献者之一,也是 FFmpeg 官方顾问,曾出版技术书籍《FFmpeg 从入门到精通》《深入理解FFmpeg》。 开源中国对悟空的专访:悟空刘歧:技术瑕疵不除不快,开源社区代码说话 作为 FFmpeg Maintainer,悟空参与了大量相关开发、维护的工作,包括将 DASH 支持的代码提交进 FFmpeg,将国标 AVS2 Codec 引入 FFmpeg,同时维护 HLS...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境