幻方量化开源国内首个 MoE 大模型:DeepSeekMoE
幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,全新架构,免费商用。
今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为“深度求索 (DeepSeek)”。
DeepSeekMoE 的模型、代码、论文均已同步发布。
- 模型下载:https://huggingface.co/deepseek-ai
- 微调代码:https://github.com/deepseek-ai/DeepSeek-MoE
- 技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf
据介绍,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均领先:
- DeepSeekMoE-2B 可接近 MoE 模型的理论上限 2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量
- DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署
- DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67B Dense 模型的性能
混合专家模型 (Mixed Expert Models,简称 MoEs) 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。
MoE 核心组成:
-
专家 (Experts):训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。
-
门控机制 (Gating Mechanism):MoE 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。
官方称 DeepSeekMoE 是自研的全新 MoE 框架,主要包含两大创新:
- 细粒度专家划分:不同于传统MoE直接从与标准FFN大小相同的N个专家里选择激活K个专家(如Mistral 7B8 采取8个专家选2专家),DeepSeekMoE把N个专家粒度划分更细,在保证激活参数量不变的情况下,从mN个专家中选择激活mK个专家(如DeepSeekMoE 16B 采取64个专家选8个专家),如此可以更加灵活地组合多个专家
- 共享专家分离:DeepSeekMoE把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
中国科协提名“鸿蒙操作系统”为 2023 年度国家科技进步奖
中国科学技术协会对《2023年度国家科学技术奖提名项目》进行了公示,其中「鸿蒙智能终端操作系统基座与产业应用」被提名为国家科技进步奖,第一完成单位是华为技术有限公司。 来源:https://www.cast.org.cn/xw/tzgg/ZZRC/art/2024/art_8ae904c8dc4e40debd6fe906dc8b8808.html 公开资料显示,“国家科学技术进步奖”创办于1984年9月,是国务院设立的国家科学技术奖5大奖项(国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖、国际科学技术合作奖)之一。 国家科学技术进步奖主要授予在技术研究、技术开发、技术创新、推广应用先进科学技术成果、促进高新技术产业化,以及完成重大科学技术工程、计划等过程中作出创造性贡献的中国公民和组织 。 国家科学技术进步奖的奖励范围涉及国民经济的各个行业,是一项覆盖面广泛的科学技术奖。从候选人、候选单位所完成项目的性质来讲,包括了新产品和新技术开发、新技术推广应用、高新技术产业化、企业技术改造及技术进步、技术基础和重大工程建设、重大设备研制中引进消化、吸收国外新技术,或自主开...
- 下一篇
荣耀回应“任意门”抄袭锤子争议
在罗永浩喊话称 “荣耀任意门” 抄袭锤子开源软件一步 (One Step) 后,荣耀公司发布声明回应外界质疑称,MagicOS 8.0 中的任意门功能完全是公司自主独立研发的成果。 荣耀强调,这一功能的开发过程中,公司研发团队付出了大量的心血和努力,进行了深入的市场调研和用户需求分析,以及无数次的试验和优化。公司一直致力于技术创新和自主研发,尊重并保护知识产权,不会进行任何形式的抄袭行为。 针对与锤子手机One Step功能的相似之处,荣耀解释称,虽然两者在功能上有一定的相似性,但在实现方式、技术细节和用户体验等方面存在显著的差异。任意门功能是基于公司自身的技术积累和用户需求进行开发的,旨在为用户提供更加便捷、高效的操作体验。 同时,荣耀也承认罗永浩作为一位资深科技人,其对于智能手机行业的洞察和构思具有超前性,对于荣耀等后辈企业的发展有着重要的启示作用。对于此次争议给新系统发布带来的影响,该公司表示将积极面对并妥善处理。 荣耀研发负责人邓斌在接受采访时也回应道,“任意门”是荣耀独立研发的基于意图识别的交互逻辑,在那个时代是完全没有的。 他解释说,“任意门”与“一步”的核心区别在于,“任...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7设置SWAP分区,小内存服务器的救世主
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Hadoop3单机部署,实现最简伪集群
- Mario游戏-低调大师作品
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Red5直播服务器,属于Java语言的直播服务器