腾讯开源｜分布式深度学习训练工具 PatrickStar-低调大师

腾讯开源｜分布式深度学习训练工具 PatrickStar

2021-10-29 1291

PatrickStar 是一款分布式深度学习训练工具，它的设计目标是支持以 GPT、Bert 为代表的超大预训练模型训练。在性能表现上远超目前业界 DeepSpeed 效果。它可以显著降低 PTM 的使用成本，使我们在更少的 GPU 硬件上训练之前用其他框架 OOM 的模型。比如，在8x V100，240GB 内存的计算节点上，派大星成功训练了 120 亿参数模型，单 GPU 的计算效率仍高达在 47 Tflops。

PatrickStar 通过使用 CPU-GPU 异构内存空间来存储模型数据，从而降低对 GPU 的显存需求。不同于现有的异构训练方案在 CPU 和 GPU 之间静态划分模型数据，PatrickStar 以 Chunk (块)的形式更灵活地管理模型数据，这些 Chunk 动态分布在异构内存空间中，在训练过程中高效地移动，来满足当前计算的需求，从而使模型尺寸突破 GPU 的显存大小限制。 PatrickStar 和业界其他优秀数据并行方案兼容，比如，PatrickStar 使用零冗余优化器方式并行扩展到多个 GPU，并实现了理论最低的通信带宽需求和更高效的带宽利用率。派大星与模型并行，流水线并行兼容。

派大星适用场景

适用 ADAM 优化器的超大模型训练过程，例如 BERT，GPT2，GPT3 等 NLP 预训练模型，超大 CNN 等 CV 模型。

功能介绍

通过在 PyTorch 基础上，包装模型和优化器的接口来调用后台优化逻辑，可以使用仅仅几行代码获得 DNN 训练过程的端到端加速。

使用示例

未来计划

1. 吸引更多的开发者完善派大星的系统实现。将派大星与目前流行的模型并行、流水线并行结合，完成超大规模训练。

2. 根据用户反馈，增加派大星的易用性。

PatrickStar 开源地址

https://github.com/Tencent/PatrickStar

微信关注我们

原文链接：https://www.oschina.net/news/166481/patrickstar-open-source

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

SQLE 1.2110.0-pre1 正式发布，SQL 审核工具

SQL 审核工具 SQLE 1.2110.0-pre1 于今天发布。注：本次升级为预览版本，仅可用新功能试用，不保证平滑升级一、SQLE项目介绍爱可生开源社区的 SQLE是一款面向数据库使用者和管理者，支持多场景审核，支持标准化上线流程，原生支持 MySQL 审核且数据库类型可扩展的 SQL 审核工具。 SQLE 获取类型地址版本库 https://github.com/actiontech/sqle 文档 https://actiontech.github.io/sqle-docs-cn/ 发布信息 https://github.com/actiontech/sqle/releases 二、更新列表特性工单上线支持 Online DDL #48 优化优化白名单页面展示框 actiontech/sqle-ui#8 缺陷修复修复回滚语句不能正常生成 #50 修复添加审核计划时展示错别字 actiontech/sqle-ui#9

2021-10-29

694

SQLE 由爱可生公司开发并开源，是一款面向数据库使用者和管理者的 SQL 审核工具，旨在规范 SQL 审核上线流程，提高 SQL 质量。SQLE 支持多场景审核，支持标准化上线流程，原生支持 MySQL 审核且数据库类型可扩展的 SQL 审核工具。主要功能平台管理支持用户和角色管理；支持配置上线数据库；支持基于角色的资源隔离；支持配置审核规则模板；支持对不同的数据库应用不同的规则模板。 SQL 审核支持工单审批流程，支持工单隔离；支持邮件推送审批事件；支持 SQL 上线；支持生成回滚语句；支持审核 MyBatis XML 文件；支持审核建议按 SQL 归类去重展示；支持审核报告下载。 SQL 审核计划支持通过标准接口收集来自业务的 SQL 统计信息；提供 MyBatis 文件扫描上传程序（scanner），可集成CI/CD；支持静态审核，即脱离上线数据库审核；支持定时审核，既有 SQL 进行生成审核报告。企业版功能支持审核白名单；支持审批流程可视化配置；支持 MySQL 慢日志采集进行 SQL 审核。特性一览自动化审核支持多SQL同工...

2021-10-29

647

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。