社区发布 | 深度求索 670 亿大模型技术报告发布
2024 开年巨献,深度解读 DeepSeek 大模型背后的技术秘密..
https://hf.co/deepseek-ai
技术报告 Highlights
-
深入探索了 超参数的Scaling Law s :为选择最佳超参数(Batch Size、 Learning Rate)提供了经验框架 -
详细论证了 数据质量 对Scaling Laws的影响 :同等数据规模下,数据质量越高,最优参数规模越大
完整的对齐实践细节,全方位的AGI能力评估
-
对比开源模型(左图),DeepSeek LLM 67B 的中英文能力已全面超越了开源标杆LLaMA2 70B -
对比闭源模型(右图),免费开源商用的DeepSeek 67B Chat的中文能力已经超越了GPT-3.5-turbo,并在专业能力、数学计算、基本任务等小幅领先国内大模型
DeepSeek LLM 核心细节
1. 数据&架构
![]()
2. 训练&Infra
2.1 多阶段学习率调度器
相比较于广泛使用的余弦学习率调度器,我们使用了多阶段学习率调度器,可以方便我们复用第一个训练阶段,在continual training时有独特的优势。我们也通过细致的实验表明,使用多阶段学习率调度器可以获得不弱于余弦学习率调度器的性能。
2.2 Infra
我们使用了内部自研的轻量级高效训练框架HAI-LLM来支持我们训练和评估LLM。我们在训练过程中使用到了数据并行、张量并行、序列并行和1F1B流水线并行等并行策略,并采用了flash attention等加速算子来提高我们的硬件利用率。我们使用bf16来训练模型并使用fp32来累积梯度。
3. Scaling Laws
3.1 超参数的Scaling Laws
我们首先从超参数入手,尝试寻找超参数层面是否存在随计算规模变化的规律。经过大量实验,我们发现,给定模型规模和数据规模后,模型的batch size和learning rate有一个较大的接近最优参数空间,且这一参数空间随计算规模的变化明显。其余参数则在不同规模下共享同样的最优参数。因此我们将超参数的Scaling Laws限定在batch size和learning rate上进行研究。
3.2 估计最优模型和数据扩展
在获得最优超参的经验公式后,我们借助Chinchilla中的IsoFLOP profile方法,对模型和数据的scaling laws进行了探究。为了获得更准确的估计,我们还使用Non-embedding FLOPs/token替换之前scaling laws研究中通常使用的模型参数来表示模型的规模。在此基础上,我们成功拟合出了模型和数据的scaling curve,并得到了模型和数据的最优分配比例。
3.3 不同数据下的Scaling Laws
在DeepSeek LLM的开发过程中,我们的数据也经历了多次迭代,在调整数据比例的同时不断提高数据质量。这也让我们有机会探究不同数据对scaling laws的影响。
4. 对齐&评估
4.1 方法
在此版DeepSeek的对齐中,方法没有秘密,使用了标准的SFT和DPO进行helpfulness和safety方面的对齐。其中,SFT使用了约一百五十万数据,数据分布比例约为safety数据30万条,helpfulness 120万条。其中,helpfulness的细分占比为46.6%的数学,22.2%的代码,其余为普通文本类对齐数据。
4.2 Helpful评估
我们对模型做了全面的有用性评估,包括一系列的公开评测基准、开放性语言生成、以及一系列从未见过的考试题,客观公平地展现模型语言理解、编程、数学、知识、指令跟随等一系列能力。
· 开放性语言生成:在清华-智谱提出的中文AlignBench开放语言生成能力评测集上,DeepSeek模型表现仅次于GPT-4,在中文能力上超过了GPT-4-0613。
4.3 安全评估
除了模型的有用性,我们也高度重视模型的安全性。我们在模型的全训练过程中(包括预训练、SFT和DPO阶段)都进行严格的数据安全性筛选,来保证训练得到的模型是足够符合人类价值观的,并且具有足够的社会亲和性。
4.4 讨论
· 选择题数据对于大模型的影响:加入选择题可以提升模型在一些特定benchmark指标可以说是业界“公开的秘密”。我们在SFT阶段对加入大量选择题进行了尝试,获得了选择题相关测试集(C-Eval,MMLU等)极大的提升,但其他测试集提升微乎其微。所以,加入选择题更像一种“Benchmark Decoration”,为了不过拟合选择题测试集,我们避免在预训练及SFT中加入大量选择题。
欢迎访问: https://hf.co/deepseek-ai
本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注微信公众号:
本文分享自微信公众号 - Hugging Face(gh_504339124f0f)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
2023 年度 npm 回顾
Socket 发文对包管理器 npm 在 2023 年的表现进行了回顾。主要聚焦于生态系统中的一些主要趋势、npm 在过去一年中的发展情况,以及深入探讨 npm 在这一年中所面临的一些恶意软件和垃圾邮件问题等等。 Socket 是一家提供扫描工具来检测开源代码中安全漏洞的初创公司,旨在保护应用程序免受潜伏在开源供应链中的恶意依赖项的影响。 文中指出,截至 2023 年底,Socket 已经从 npm 注册表中摄取了来自近 90 万个维护者的近 40 万个软件包。npm 的官方统计数据则显示,到 2023 年底,实时包数量超过 250 万个,每月下载量超过 1840 亿次。250 万和 400 万的数据差异表明,许多软件包最终都会从平台中删除。 在 npm 上发布软件包不需要走审查流程,因此操作起来十分简单;也正因此,npm 注册表拥有一个“比其他语言生态系统存在更多恶意软件包”的名声。但 Socket 指出,根据其在 Python 生态系统中的一些发现表明,有关 npm 的这一认知并不完全正确。 数据显示,2023 年 npm 注册表共发布了 10,518,566 个软件包版本,还有 ...
- 下一篇
第 02 期 [事务] BEGIN 语句会马上启动事务吗?
聊聊最常用也是最简单的 BEGIN 语句,开始一个事务的过程中都干了什么。 作者:操盛春,爱可生技术专家,公众号『一树一溪』作者,专注于研究 MySQL 和 OceanBase 源码。 爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。 BEGIN 语句会马上启动事务吗? 本文基于 MySQL 8.0.32 源码,存储引擎为 InnoDB。 目录 [TOC] 正文 1. BEGIN 语句的七十二变 我们查看官方文档中开始一个事务的语法,会发现还挺复杂: START TRANSACTION [transaction_characteristic [, transaction_characteristic] ...] transaction_characteristic: { WITH CONSISTENT SNAPSHOT | READ WRITE | READ ONLY } BEGIN [WORK] 上面眼花缭乱的语法,按照各种组合展开之后,可以得到这些 SQL 语句: /* 1 */ BEGIN /* 2 */ BEGIN WORK /* 3 */ STAR...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Windows10,CentOS7,CentOS8安装Nodejs环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19