从工程化角度，详解鹏程·脑海大模型训练过程

2024-01-12 462

从工程化的角度，对鹏城.脑海大模型训练语料处理、模型训练优化、模型应用等方面做出了全面详细的经验分享。

我们有幸邀请到了鹏城实验室高效能云计算所算法工程师陶恒韬老师来进行鹏城.脑海大模型训练过程的讲解。在课程中，陶老师从工程化的角度，对鹏城.脑海大模型训练语料处理、模型训练优化、模型应用等方面做出了全面详细的经验分享。

鹏城.脑海大模型介绍

鹏城·脑海（PengCheng Mind）大模型计划：旨在打造自然语言预训练大模型底座，将实现2000亿参数稠密型AI大模型

鹏城·脑海大模型：

以中文为核心的文本大模型基座
2000亿级别参数，稠密型自回归式语言模型
依托“鹏城云脑II”千卡集群，基于昇思MindSpore多维分布式并行技术进行预训练
保障大模型的数据安全隐私，输出内容符合中文核心价值观
大模型能力持续演进，快速迭代更新

训练语料处理和使用

语料清洗工程化：收集数据——格式预处理——数据清洗——脱敏过滤——样本间和样本内去重——数据集质量评估

脱敏过滤：通过分类模型进行过滤，并不断迭代优化，包含敏感词和文本过滤器、广告词过滤器、质量评估器
样本间和样本内去重：样本间采用计算hash去重，样本内采用n-gram算法去重
数据集分布：中文为核心，覆盖40个不同领域，以经济、文学、教育、医学、法律等为主导

200B模型训练过程

模型结构：Transformer Decoder only，延续GPT-175B模型结构，并在其基础上进行了相应拓展

延续PanGu-α，在Transformer decoder层上添加top query查询层，用于预测下一token
位置编码采用旋转位置编码（ROPE）
使用FlashAttention进行加速优化

训练策略：对比PanGu-α，重构训练策略，采用数据+模型+流水线+优化器并行

重计算：时间换空间，不保存正向算子计算结果，在计算反向算子时，如需要相应正向结果，再重新计算正向算子
选择性重算：整网重算存在显存空余，选择部分算子重算，提升显存利用率和训练效率
细粒度重算：针对不同层的算子进行差异化的重算配置，搭配流水线并行的均衡配置，提高可配置选择性重算的空间

分布式并行配置：机柜之间的带宽<机器之间的带宽<机器内卡之间的带宽，针对训练资源量（卡数和机器数）调整确认pipeline数量，尽量保证流水线并行的切分在机柜之间执行，且pipeline切分不能过细

大集群+大模型训练的稳定性保障

算法健壮性：混合精度训练，针对精度敏感的Layer norm和softmax采用FP32
训练故障恢复优化：自动监控+临终遗言+编译优化

鹏城·脑海模型全流程开发：数据预处理—模型预训练—微调（SFT）--对齐（RLHF）--模型部署—模型应用

【下节课程预告】

下周六（2024年1月20日）我们即将迎来国产开源大语言模型另一位重磅玩家——CPM-Bee中英文双语基座大模型。在下节课程中，我们非常荣幸地邀请到了OpenBMB开源社区技术负责人、清华大学硕士，同时也是CPM-Bee开源搭模型项目主要维护者龚柏涛老师来进行CPM-Bee模型的讲解。

这里我们稍稍剧透下课程内容，各位小伙伴1月20日 14：00-15：30不见不散！

CPM-Bee模型结构：CPM-Bee的模型结构介绍
CPM-Bee数据格式：介绍CPM-Bee的结构化输入输出数据格式，以及相应的分词、位置编码的方法
CPM-Bee微调及推理演示：基于例子演示，介绍Mindspore+CPM-Bee的使用方法，包括推理、微调等

昇思MindSpore技术公开课大模型专题第二期课程火爆来袭！未报名的小伙伴抓紧时间参与课程，并同步加入课程群，有免费丰富的课程资源在等着你。课程同步赋能华为ICT大赛2023-2024，助力各位选手取得理想成绩！

戳我立即了解课程

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10775030

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

AWS EC2 必知必会小技巧 | 机型特点解析和选型技巧分享

背景 AWS EC2 是 AWS 的弹性计算服务，为广大开发者提供简单便捷弹性的虚拟机，是 AWS 历史最悠久的服务之一（另外一个是 S3），从 2006 年发布至今，已经发展了近 17 年历史。相信不少刚开始接触 EC2 的朋友都有如下类似的感受： AWS EC2 的类型实在是太多了（数百种）！我究竟应该选择哪一种 EC2 机型既能满足业务需求且不超过预算？ EC2 的 CPU 和 Memory 配置一样，是不是代表它们的性能差异也一样？采用什么样的 EC2 付费模式才比较划算？回想 EC2 刚开始发布时，只有两种机型可供选择，而如今则有 781 种，琳琅满目的 EC2 类型必然会让开发者们陷入选择困难症。本文将简单介绍一些 EC2 机型选择的小技巧，目的是为了帮助读者能够更快地选择合适的 EC2 机型。机型分类和选择总体分类尽管 AWS 有数百种 EC2 机型，但其实只有以下几种大的分类： General Purpose：Compute、Memory 和 Networking 资源相对平衡，即 M 系列和 T 系列。绝大多数场景用 General Purpose...

2024-01-11

524

在这篇博客中，我们将深入探讨Postgres 16中引入的一些更高级的新功能。为了更好地理解这些功能，读者应具备一些Linux、Postgres和SQL的基础知识，因为我们将深入探讨这些新功能并指导如何实现它们。本博客以在Ubuntu 23.04上运行的PostgreSQL 16（开发版）为基础进行编写。首先，我们将介绍一些背景信息，并简要介绍什么是双向复制，以及为什么它很重要，然后介绍我们如何实现双向逻辑复制。 #1背景在开始学习双向逻辑复制之前，我们首先必须了解什么是逻辑复制。 #2 逻辑复制的基础知识从 PostgreSQL 10 就支持逻辑复制功能，并且在接下来的几年中逻辑复制功能已得到广泛应用和持续更新。逻辑复制是复制(ie. replicating)数据对象的过程，其表示为它们的更改。通过这种方式，我们可以只复制表等对象的特定更改，而不是复制整个数据库，并将这些更改流式传输到不同的平台和版本。与物理复制形成鲜明对比，逻辑复制更注重于抽象层面的数据表示，这使得它能在不同平台和版本之间实现无缝的数据流传输。相比之下，物理复制更依赖于确切的块地址，导致其复制范围局限于整...

2024-01-12

376

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。