幻方量化开源国内首个 MoE 大模型：DeepSeekMoE-低调大师

幻方量化开源国内首个 MoE 大模型：DeepSeekMoE

2024-01-12 545

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE，全新架构，免费商用。

今年 4 月，幻方量化发布公告称，公司将集中资源和力量，全力投身到服务于全人类共同利益的人工智能技术之中，成立新的独立研究组织，探索 AGI 的本质。幻方将这个新组织命名为“深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代码、论文均已同步发布。

模型下载：https://huggingface.co/deepseek-ai
微调代码：https://github.com/deepseek-ai/DeepSeek-MoE
技术报告：https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

据介绍，DeepSeekMoE 的多尺度（2B->16B->145B）模型效果均领先：

DeepSeekMoE-2B 可接近 MoE 模型的理论上限 2B Dense 模型性能（即相同 Attention/FFN 参数配比的 2B Dense 模型），仅用了 17.5% 计算量
DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时，仅用了 40% 计算量，也是本次主力开源模型，40G 显存可单卡部署
DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard，仅用 28.5%（甚至 18.2%）计算量即可匹配 67B Dense 模型的性能

混合专家模型 (Mixed Expert Models，简称 MoEs) 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务，每个子任务由专门的小型模型或 “专家” 负责，然后根据输入数据的特性选择性地激活这些 “专家”。

MoE 核心组成：

专家 (Experts)：训练有素的小型神经网络，擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式，如完全连接的网络、卷积网络等。
门控机制 (Gating Mechanism)：MoE 架构决策者，这是一个智能路由系统，负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性，动态地将数据分配给不同的专家。

官方称 DeepSeekMoE 是自研的全新 MoE 框架，主要包含两大创新：

细粒度专家划分：不同于传统MoE直接从与标准FFN大小相同的N个专家里选择激活K个专家（如Mistral 7B8 采取8个专家选2专家），DeepSeekMoE把N个专家粒度划分更细，在保证激活参数量不变的情况下，从mN个专家中选择激活mK个专家（如DeepSeekMoE 16B 采取64个专家选8个专家），如此可以更加灵活地组合多个专家
共享专家分离：DeepSeekMoE把激活专家区分为共享专家（Shared Expert）和独立路由专家（Routed Expert），此举有利于将共享和通用的知识压缩进公共参数，减少独立路由专家参数之间的知识冗余

点此查看详情。

微信关注我们

原文链接：https://www.oschina.net/news/275378

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

中国科协提名“鸿蒙操作系统”为 2023 年度国家科技进步奖

中国科学技术协会对《2023年度国家科学技术奖提名项目》进行了公示，其中「鸿蒙智能终端操作系统基座与产业应用」被提名为国家科技进步奖，第一完成单位是华为技术有限公司。来源：https://www.cast.org.cn/xw/tzgg/ZZRC/art/2024/art_8ae904c8dc4e40debd6fe906dc8b8808.html 公开资料显示，“国家科学技术进步奖”创办于1984年9月，是国务院设立的国家科学技术奖5大奖项（国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖、国际科学技术合作奖）之一。国家科学技术进步奖主要授予在技术研究、技术开发、技术创新、推广应用先进科学技术成果、促进高新技术产业化，以及完成重大科学技术工程、计划等过程中作出创造性贡献的中国公民和组织。国家科学技术进步奖的奖励范围涉及国民经济的各个行业，是一项覆盖面广泛的科学技术奖。从候选人、候选单位所完成项目的性质来讲，包括了新产品和新技术开发、新技术推广应用、高新技术产业化、企业技术改造及技术进步、技术基础和重大工程建设、重大设备研制中引进消化、吸收国外新技术，或自主开...

2024-01-12

445

在罗永浩喊话称 “荣耀任意门” 抄袭锤子开源软件一步 (One Step) 后，荣耀公司发布声明回应外界质疑称，MagicOS 8.0 中的任意门功能完全是公司自主独立研发的成果。荣耀强调，这一功能的开发过程中，公司研发团队付出了大量的心血和努力，进行了深入的市场调研和用户需求分析，以及无数次的试验和优化。公司一直致力于技术创新和自主研发，尊重并保护知识产权，不会进行任何形式的抄袭行为。针对与锤子手机One Step功能的相似之处，荣耀解释称，虽然两者在功能上有一定的相似性，但在实现方式、技术细节和用户体验等方面存在显著的差异。任意门功能是基于公司自身的技术积累和用户需求进行开发的，旨在为用户提供更加便捷、高效的操作体验。同时，荣耀也承认罗永浩作为一位资深科技人，其对于智能手机行业的洞察和构思具有超前性，对于荣耀等后辈企业的发展有着重要的启示作用。对于此次争议给新系统发布带来的影响，该公司表示将积极面对并妥善处理。荣耀研发负责人邓斌在接受采访时也回应道，“任意门”是荣耀独立研发的基于意图识别的交互逻辑，在那个时代是完全没有的。他解释说，“任意门”与“一步”的核心区别在于，“任...

2024-01-12

428

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。