幻方量化开源国内首个 MoE 大模型:DeepSeekMoE
幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,全新架构,免费商用。 今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为“深度求索 (DeepSeek)”。 DeepSeekMoE 的模型、代码、论文均已同步发布。 模型下载:https://huggingface.co/deepseek-ai 微调代码:https://github.com/deepseek-ai/DeepSeek-MoE 技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf 据介绍,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均领先: DeepSeekMoE-2B 可接近 MoE 模型的理论上限2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量 D...
