社区发布 | 深度求索开源国内首个 MoE 大模型，技术报告、模型权重同时发布

2024-01-12 327 89

MoE（Mixture-of-Experts），混合专家架构，已是 GPT4 公开的秘密...

今天，DeepSeek 团队率先开源国内首个 MoE 大模型 DeepSeekMoE，全新架构，免费商用。

自研全新 MoE 架构，多尺度（2B->16B->145B）模型效果均领先：

· DeepSeekMoE 2B 可接近 MoE 模型的理论上限 2B Dense 模型性能（即相同Attention/FFN 参数配比的 2B Dense模型），仅用了17.5%计算量

· DeepSeekMoE 16B 性能比肩 LLaMA2 7B 的同时，仅用了40%计算量（如下图），也是本次主力开源模型，40G 显存可单卡部署

· DeepSeekMoE 145B 上的早期实验进一步证明该MoE架构明显领先于 Google 的 MoE 架构 GShard，仅用 28.5%（甚至 18.2%）计算量即可匹配 67B Dense 模型的性能

图1：不同激活参数量的模型（横轴）

在Open LLM Leaderboard上的效果（纵轴）

多重发布

模型、代码、论文均已同步发布。

模型下载： https://huggingface.co/deepseek-ai

微调代码：https://github.com/deepseek-ai/DeepSeek-MoE

技术报告：https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

图2：DeepSeekMoE 16B模型已开放下载

无需申请即可商用

图3： DeepSeekMoE 技术报告

自研全新MoE框架

图4：DeepSeekMoE 架构

DeepSeekMoE在框架上做了两大创新：

· 细粒度专家 划分：不同于传统MoE直接从与标准FFN大小相同的N个专家里选择激活K个专家（如Mistral 7B*8 采取8个专家选2专家），我们把N个专家粒度划分更细，如上图4(b)， 在保证激活参数量 不变 的情况下 ，从mN个专家中选择激活mK个专家（如DeepSeekMoE 16B 采取64个专家选8个专家），如此可以更加灵活地组合多个专家

· 共享 专家分离 ：我们把激活专家区分为共享专家（Shared Expert）和独立路由专家（Routed Expert），如上图4(c)，此举有利于将共享和通用的知识压缩进公共参数，减少独立路由专家参数之间的知识冗余

开源MoE模型表现

在相同语料下训练了2万亿token，DeepSeekMoE 16B 模型（实际激活参数量为2.8B）性能匹敌DeepSeek 7B Dense 模型（左下图），而同时节省了60%的计算量。

与目前Dense模型的开源代表LLaMA2相比，DeepSeekMoE 16B 在大部分数据集上的性能依旧领先LLaMA2 7B（右下图），但仅用了40%计算量。

多尺度模型进阶

DeepSeekMoE包含三个模型规模：2B->16B->145B。

DeepSeekMoE 2B (性能验证)

我们首先基于 2B 总参数的规模，对 DeepSeekMoE 的架构进行了充分的探索和研究：

· 相同总参数量的对比下，DeepSeekMoE 大幅优于相同总参数下的其他MoE架构

图5：DeepSeekMoE 2B 对比相同参数MoE模型

· 与更大规模（总参数量或者计算量）的模型相比，DeepSeekMoE 2B 能匹配 GShard 2.8B （1.5 倍专家参数量和专家计算量）的性能，同时能非常接近MoE模型的理论性能上限，即相同Attention/FFN总参数量下 2B Dense 模型的性能

图6：DeepSeekMoE 2B 模型性能上限分析

· 消融实验进一步证明了共享专家分离和细粒度专家划分两个策略的有效性

图7：DeepSeekMoE两大创新的消融实验

此外，我们还验证了 DeepSeekMoE 相比于 GShard，有更好的专家化程度，体现在更少的专家知识冗余和更精准的专家知识命中上，具体请参见技术报告的第4.5节。

DeepSeekMoE 16B (开源版本)

基于在 2B 规模上建立的对模型架构的认知，我们训练了总参数量为16.4B的 DeepSeekMoE 16B 模型，并将其开源以促进研究社区的发展。

开源模型效果如下：

· 在仅用40%计算量的前提下，DeepSeekMoE 16B 能达到与 DeepSeek 7B（左图）和 LLaMA2 7B（右图）相匹配的性能，在知识密集性任务上，DeepSeekMoE 16B 的优势尤其突出

· 我们同时还对 DeepSeekMoE 16B 进行了 SFT 以构建一个对话模型，评测显示，其同样能够与基于 DeepSeek 7B 和 LLaMA2 7B 构建的对话模型性能相匹配

图10：DeepSeekMoE 16B SFT后模型效果对比

DeepSeekMoE 145B (持续研究)

我们正在持续研究更大规模的 DeepSeekMoE 模型，基于 200B 语料训练得到的初步实验结果显示，DeepSeekMoE 145B 依旧保持对 GShard 137B 的极大领先优势，同时能够以 28.5%（甚至18.2%） 的计算量达到与 DeepSeek 67B Dense 模型相匹配的性能。

图11 ： DeepSeekMoE 145B 早期实验结果

NOTE：DeepSeekMoE 145B 正在持续开发中，在未来，我们同样会将其开源给研究社区。

本文由 H ugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注微信公众号:

如果你有与开源 AI、 Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:
https://hf.link/tougao

本文分享自微信公众号 - Hugging Face（gh_504339124f0f）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/HuggingFace/blog/10860922

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开放 LLM 排行榜: 深入研究 DROP

最近，开放 LLM 排行榜迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP，它们都使用了 EleutherAI Harness 的原始实现。一眼望去，我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)！我们对此进行了深入调查以一探究竟，请随我们一起踏上发现之旅吧！初步观察在 DROP (Discrete Reasoning Over Paragraphs，段落级离散推理) 评估中，模型需要先从英文文段中提取相关信息，然后再对其执行离散推理 (例如，对目标对象进行排序或计数以得出正确答案，如下图中的例子)。其使用的指标是自定义 F1 以及精确匹配分数。基于文段的推理示例三周前，我们将 DROP 添加至开放 LLM 排行榜中，然后我们观察到预训练模型的 DROP F1 分数有个奇怪的趋势: 当我们把排行榜所有原始基准 (ARC、HellaSwag、TruthfulQA 和 MMLU) 的平均分 (我们认为其一定程度上代表了模型的总体性能) 和 DROP 分数作为两个轴绘制散点图时，我们本来希望看到 ...

322

2023 年值得一读的技术文章｜ NebulaGraph 技术社区

在之前的产品篇，我们了解到了 NebulaGraph 内核及周边工具在 2023 年经历了什么样的变化。伴随着这些特性的变更和上线，在【文章】博客分类中，一篇篇的博文记录下了这些功能背后的设计思考和研发实践。当中，既有对内存管理 Memory Tracker 的原理讲解，也有对 NebulaGraph 的安装选择指引。而 LLM 作为 2023 年技术圈的一大热点，NebulaGraph 也凭借 Graph + RAG 的契机，让社区用户了解到了在图、知识图谱、大模型这一新的三元组。无独有偶，社区小伙伴 @heikeladi 的《利用 ChatGLM 构建知识图谱》也开启了 GPT 构建知识图谱的新章节，让知识图谱的构建更加 easy。不只是 LLM、图数据库 NebulaGraph，今年也是 DDIA（design data-intensive application）系列在 NebulaGraph 技术社区连载的第一年，从底层数据结构到顶层架构设计，带你更全面地了解分布式系统。下面，来看看今年 NebulaGraph 技术社区有哪些博文值得你读一读。如果你觉得某篇文章不错，不...

327

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Oracle Database，又名Oracle RDBMS

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

社区发布 | 深度求索开源国内首个 MoE 大模型，技术报告、模型权重同时发布

多重发布

自研全新MoE框架

开源MoE模型表现

多尺度模型进阶

DeepSeekMoE 2B (性能验证)

DeepSeekMoE 145B (持续研究)

如果你有与开源 AI、 Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:
https://hf.link/tougao

开放 LLM 排行榜: 深入研究 DROP

2023 年值得一读的技术文章｜ NebulaGraph 技术社区

相关文章

发表评论

资源下载

优质分享Android(本站安卓app)

Mario，低调大师唯一一个Java游戏作品

Oracle Database，又名Oracle RDBMS

Apache Tomcat7、8、9（Java Web服务器）

欢迎您！

社区发布 | 深度求索开源国内首个 MoE 大模型，技术报告、模型权重同时发布

多重发布

自研全新MoE框架

开源MoE模型表现

多尺度模型进阶

DeepSeekMoE 2B (性能验证)

DeepSeekMoE 145B (持续研究)

如果你有与开源 AI、 Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系: https://hf.link/tougao

开放 LLM 排行榜: 深入研究 DROP

2023 年值得一读的技术文章 ｜ NebulaGraph 技术社区

相关文章

发表评论

资源下载

优质分享Android(本站安卓app)

Mario，低调大师唯一一个Java游戏作品

Oracle Database，又名Oracle RDBMS

Apache Tomcat7、8、9（Java Web服务器）

欢迎您！

如果你有与开源 AI、 Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:
https://hf.link/tougao

2023 年值得一读的技术文章｜ NebulaGraph 技术社区