从工程化角度,详解鹏程·脑海大模型训练过程
从工程化的角度,对鹏城.脑海大模型训练语料处理、模型训练优化、模型应用等方面做出了全面详细的经验分享。
我们有幸邀请到了鹏城实验室高效能云计算所算法工程师陶恒韬老师来进行鹏城.脑海大模型训练过程的讲解。在课程中,陶老师从工程化的角度,对鹏城.脑海大模型训练语料处理、模型训练优化、模型应用等方面做出了全面详细的经验分享。
鹏城.脑海大模型介绍
鹏城·脑海(PengCheng Mind)大模型计划:旨在打造自然语言预训练大模型底座,将实现2000亿参数稠密型AI大模型
鹏城·脑海大模型:
- 以中文为核心的文本大模型基座
- 2000亿级别参数,稠密型自回归式语言模型
- 依托“鹏城云脑II”千卡集群,基于昇思MindSpore多维分布式并行技术进行预训练
- 保障大模型的数据安全隐私,输出内容符合中文核心价值观
- 大模型能力持续演进,快速迭代更新
训练语料处理和使用
语料清洗工程化:收集数据——格式预处理——数据清洗——脱敏过滤——样本间和样本内去重——数据集质量评估
- 脱敏过滤:通过分类模型进行过滤,并不断迭代优化,包含敏感词和文本过滤器、广告词过滤器、质量评估器
- 样本间和样本内去重:样本间采用计算hash去重,样本内采用n-gram算法去重
- 数据集分布:中文为核心,覆盖40个不同领域,以经济、文学、教育、医学、法律等为主导
200B模型训练过程
模型结构:Transformer Decoder only,延续GPT-175B模型结构,并在其基础上进行了相应拓展
- 延续PanGu-α,在Transformer decoder层上添加top query查询层,用于预测下一token
- 位置编码采用旋转位置编码(ROPE)
- 使用FlashAttention进行加速优化
训练策略:对比PanGu-α,重构训练策略,采用数据+模型+流水线+优化器并行
- 重计算:时间换空间,不保存正向算子计算结果,在计算反向算子时,如需要相应正向结果,再重新计算正向算子
- 选择性重算:整网重算存在显存空余,选择部分算子重算,提升显存利用率和训练效率
- 细粒度重算:针对不同层的算子进行差异化的重算配置,搭配流水线并行的均衡配置,提高可配置选择性重算的空间
分布式并行配置:机柜之间的带宽<机器之间的带宽<机器内卡之间的带宽,针对训练资源量(卡数和机器数)调整确认pipeline数量,尽量保证流水线并行的切分在机柜之间执行,且pipeline切分不能过细
大集群+大模型训练的稳定性保障
- 算法健壮性:混合精度训练,针对精度敏感的Layer norm和softmax采用FP32
- 训练故障恢复优化:自动监控+临终遗言+编译优化
鹏城·脑海模型全流程开发:数据预处理—模型预训练—微调(SFT)--对齐(RLHF)--模型部署—模型应用
【下节课程预告】
下周六(2024年1月20日)我们即将迎来国产开源大语言模型另一位重磅玩家——CPM-Bee中英文双语基座大模型。在下节课程中,我们非常荣幸地邀请到了OpenBMB开源社区技术负责人、清华大学硕士,同时也是CPM-Bee开源搭模型项目主要维护者 龚柏涛老师来进行CPM-Bee模型的讲解。
这里我们稍稍剧透下课程内容,各位小伙伴1月20日 14:00-15:30不见不散!
- CPM-Bee模型结构:CPM-Bee的模型结构介绍
- CPM-Bee数据格式:介绍CPM-Bee的结构化输入输出数据格式,以及相应的分词、位置编码的方法
- CPM-Bee微调及推理演示:基于例子演示,介绍Mindspore+CPM-Bee的使用方法,包括推理、微调等
昇思MindSpore技术公开课大模型专题第二期课程火爆来袭!未报名的小伙伴抓紧时间参与课程,并同步加入课程群,有免费丰富的课程资源在等着你。课程同步赋能华为ICT大赛2023-2024,助力各位选手取得理想成绩!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
AWS EC2 必知必会小技巧 | 机型特点解析和选型技巧分享
背景 AWS EC2 是 AWS 的弹性计算服务,为广大开发者提供简单便捷弹性的虚拟机,是 AWS 历史最悠久的服务之一(另外一个是 S3),从 2006 年发布至今,已经发展了近 17 年历史。 相信不少刚开始接触 EC2 的朋友都有如下类似的感受: AWS EC2 的类型实在是太多了(数百种)!我究竟应该选择哪一种 EC2 机型既能满足业务需求且不超过预算 ? EC2 的 CPU 和 Memory 配置一样,是不是代表它们的性能差异也一样 ? 采用什么样的 EC2 付费模式才比较划算 ? 回想 EC2 刚开始发布时,只有两种 机型可供选择,而如今则有 781 种,琳琅满目的 EC2 类型必然会让开发者们陷入选择困难症。本文将简单介绍一些 EC2 机型选择的小技巧,目的是为了帮助读者能够更快地选择合适的 EC2 机型。 机型分类和选择 总体分类 尽管 AWS 有数百种 EC2 机型,但其实只有以下几种大的分类: General Purpose:Compute、Memory 和 Networking 资源相对平衡,即 M 系列和 T 系列。绝大多数场景用 General Purpose...
- 下一篇
PostgreSQL16中的新增功能:双向逻辑复制
在这篇博客中,我们将深入探讨Postgres 16中引入的一些更高级的新功能。为了更好地理解这些功能,读者应具备一些Linux、Postgres和SQL的基础知识,因为我们将深入探讨这些新功能并指导如何实现它们。 本博客以在Ubuntu 23.04上运行的PostgreSQL 16(开发版)为基础进行编写。首先,我们将介绍一些背景信息,并简要介绍什么是双向复制,以及为什么它很重要,然后介绍我们如何实现双向逻辑复制。 #1背景 在开始学习双向逻辑复制之前,我们首先必须了解什么是逻辑复制。 #2 逻辑复制的基础知识 从 PostgreSQL 10 就支持逻辑复制功能,并且在接下来的几年中逻辑复制功能已得到广泛应用和持续更新。逻辑复制是复制(ie. replicating)数据对象的过程,其表示为它们的更改。通过这种方式,我们可以只复制表等对象的特定更改,而不是复制整个数据库,并将这些更改流式传输到不同的平台和版本。与物理复制形成鲜明对比,逻辑复制更注重于抽象层面的数据表示,这使得它能在不同平台和版本之间实现无缝的数据流传输。相比之下,物理复制更依赖于确切的块地址,导致其复制范围局限于整...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6