社区发布 | 深度求索开源国内首个 MoE 大模型,技术报告、模型权重同时发布
MoE(Mixture-of-Experts),混合专家架构,已是 GPT4 公开的秘密...
自研全新 MoE 架构,多尺度(2B->16B->145B)模型效果均领先:
多重发布
图2:DeepSeekMoE 16B模型已开放下载
无需申请即可商用
自研全新MoE框架
DeepSeekMoE在框架上做了两大创新:
开源MoE模型表现
在相同语料下训练了2万亿token,DeepSeekMoE 16B 模型(实际激活参数量为2.8B)性能匹敌DeepSeek 7B Dense 模型(左下图),而同时节省了60%的计算量。
多尺度模型进阶
DeepSeekMoE包含三个模型规模:2B->16B->145B。
DeepSeekMoE 2B (性能验证)
· 与更大规模(总参数量或者计算量)的模型相比,DeepSeekMoE 2B 能匹配 GShard 2.8B (1.5 倍专家参数量和专家计算量)的性能,同时能非常接近MoE模型的理论性能上限,即相同Attention/FFN总参数量下 2B Dense 模型的性能
此外,我们还验证了 DeepSeekMoE 相比于 GShard,有更好的专家化程度,体现在更少的专家知识冗余和更精准的专家知识命中上,具体请参见技术报告的第4.5节。
基于在 2B 规模上建立的对模型架构的认知,我们训练了总参数量为16.4B的 DeepSeekMoE 16B 模型,并将其开源以促进研究社区的发展。
开源模型效果如下:
· 我们同时还对 DeepSeekMoE 16B 进行了 SFT 以构建一个对话模型,评测显示,其同样能够与基于 DeepSeek 7B 和 LLaMA2 7B 构建的对话模型性能相匹配
DeepSeekMoE 145B (持续研究)
NOTE:DeepSeekMoE 145B 正在持续开发中,在未来,我们同样会将其开源给研究社区。
如果你有与开源 AI、 Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:
https://hf.link/tougao
https://hf.link/tougao
本文分享自微信公众号 - Hugging Face(gh_504339124f0f)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开放 LLM 排行榜: 深入研究 DROP
最近,开放 LLM 排行榜 迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP,它们都使用了 EleutherAI Harness 的原始实现。一眼望去,我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)!我们对此进行了深入调查以一探究竟,请随我们一起踏上发现之旅吧! 初步观察 在 DROP (Discrete Reasoning Over Paragraphs,段落级离散推理) 评估中,模型需要先从英文文段中提取相关信息,然后再对其执行离散推理 (例如,对目标对象进行排序或计数以得出正确答案,如下图中的例子)。其使用的指标是自定义 F1 以及精确匹配分数。 基于文段的推理示例 三周前,我们将 DROP 添加至开放 LLM 排行榜中,然后我们观察到预训练模型的 DROP F1 分数有个奇怪的趋势: 当我们把排行榜所有原始基准 (ARC、HellaSwag、TruthfulQA 和 MMLU) 的平均分 (我们认为其一定程度上代表了模型的总体性能) 和 DROP 分数作为两个轴绘制散点图时,我们本来希望看到 ...
- 下一篇
2023 年值得一读的技术文章 | NebulaGraph 技术社区
在之前的产品篇,我们了解到了 NebulaGraph 内核及周边工具在 2023 年经历了什么样的变化。伴随着这些特性的变更和上线,在【文章】博客分类中,一篇篇的博文记录下了这些功能背后的设计思考和研发实践。当中,既有对内存管理 Memory Tracker 的原理讲解,也有对 NebulaGraph 的安装选择指引。 而 LLM 作为 2023 年技术圈的一大热点,NebulaGraph 也凭借 Graph + RAG 的契机,让社区用户了解到了在图、知识图谱、大模型这一新的三元组。无独有偶,社区小伙伴 @heikeladi 的《利用 ChatGLM 构建知识图谱》也开启了 GPT 构建知识图谱的新章节,让知识图谱的构建更加 easy。 不只是 LLM、图数据库 NebulaGraph,今年也是 DDIA(design data-intensive application)系列在 NebulaGraph 技术社区连载的第一年,从底层数据结构到顶层架构设计,带你更全面地了解分布式系统。 下面,来看看今年 NebulaGraph 技术社区有哪些博文值得你读一读。如果你觉得某篇文章不错,不...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程