硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
- Stable Diffusion 2.0低成本训练/微调/推理,最多可降低显存消耗5.6倍,使硬件成本直降46倍,一行代码即可使用;
- 1750亿参数BLOOM模型单机推理,显存消耗降低4倍,使硬件成本降低10余倍;
- 一行代码实现自动搜索最佳并行策略,显著降低分布式训练上手门槛,原生支持Hugging Face,Timm等热门 AI 模型库。
Stable Diffusion 2.0低成本训练/微调/推理
- 可减少训练显存消耗5.6倍,硬件成本最高降低46倍;
- 支持DreamBooth单 GPU 快速个性化微调;
- 推理显存消耗降低2.5倍。
训练
背后显存优化
一行代码快速上手
from lightning.pytorch import trainer, LightningModule from lightning.pytorch.strategies import ColossalAIStrategy Mystrategy = ColossalAIStrategy(use_chunk=True, enable_distributed_storage=True, placement_policy=auto) trainer = Trainer(accelerator="gpu", devices=4, precision=16, strategy=Mystrategy) trainer.fit(model)
DreamBooth微调
train_dreambooth_colossalai.py
,即可在该微调任务上充分发挥Colossal-AI的显存优化,个性化快速微调自己的图文模型,极大地降低了使用门槛。 推理
model = replace_module(model)
1750亿BLOOM模型低成本推理
一行代码自动并行
# wrap the model using auto_engine model, optimizer = auto_engine(model, optimizer, cluster_info) # normal training loop ...
Graph Tracing
细粒度分布式训练策略搜索
分布式tensor与shape consistency系统
相较于PyTorch DTensor,Colossal-AI有以下3个优势:
- Colossal-AI的device mesh可以profiling到集群性能指标,对不同的通信算子进行耗时估算。
- Colossal-AI的shape consistency会贪心地搜索sharding spec间的转换方式,而不是朴素地逐dimension进行转换,这样能找到更高效的转换路径,进而使得sharding spec间的转换通信开销更小。
- 加入了all_to_all操作,使得Colossal-AI的扩展性更强,这在大规模集群上进行训练时,可以展现出很大的优势。
与activation checkpoint结合
![]()
关于Colossal-AI
面向大模型时代的通用深度学习系统Colossal-AI,可实现高效快速部署AI大模型训练和推理,降低AI大模型应用成本。自开源以来,Colossal-AI已经多次在GitHub热榜位列世界第一,获得GitHub Star超七千颗,并成功入选SC、AAAI、PPoPP等国际AI与HPC顶级会议的官方教程。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
最新整理的运维工程师面试真的太给力了,整整50道,速度收藏!
1、请简述OSI七层网络模型有哪些层及各自的含义? 物理层:底层数据传输,比如网线、网卡标准 数据链路层:定义数据的基本格式,如何传输,如何标识。比如网卡MAC地址 网络层:定义IP编码,定义路由功能,比如不同设备的数据转发 传输层:端到端传输数据的基本功能,比如TCP、UDP 会话层:控制应用程序之间会话能力,比如不同软件数据分发给不停软件 表示层:数据格式标识,基本压缩加密功能。 应用层:各种应用软件,包括 Web 应用。 2、在Linux的LVM分区格式下,请简述给根分区磁盘扩容的步骤? 这个分3种 第一种方法: growpart/dev/vda1 resize2fs/dev/vda1 第二种方法: partpeobe/dev/sda resize2fs/dev/vda1 第三种方法: fdisk/dev/sdb#np11回车回车t8ew pvcreate/dev/sdb1 vgextenddatavg/dev/sdb1 lvextend-r-L+100%free/dev/mapper/datavg-lv01 3、讲述一下Tomcat8005、8009...
- 下一篇
更稳定!Apache Doris 1.2.1 Release 版本正式发布|版本通告
亲爱的社区小伙伴们,我们很高兴地宣布,Apache Doris 于 2023 年1 月 4 日迎来 1.2.1 Release 版本的正式发布!在新版本中,Apache Doris 团队修复了自 1.2.0 版本发布以来约 200 个问题或性能改进项。同时,1.2.1 版本作为 1.2 LTS 的第一个迭代版本,具备更高的稳定性,建议用户升级到这个版本。 GitHub下载: https://github.com/apache/doris/releases 官网下载页: https://doris.apache.org/zh-CN/download 优化改进 支持高精度小数 DecimalV3 支持精度更高和性能更好的 DecimalV3,相较于过去版本具有以下优势: 可表示范围更大,取值范围都进行了明显扩充,有效数字范围 [1,38]。 性能更高,根据不同精度,占用存储空间可自适应调整。 支持更完备的精度推演,对于不同的表达式,应用不同的精度推演规则对结果的精度进行推演。 支持 Iceberg V2 支持 Iceberg V2 (仅支持 Position Delete, Equalit...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Hadoop3单机部署,实现最简伪集群
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7,8上快速安装Gitea,搭建Git服务器