“零”代码改动，静态编译让太乙Stable Diffusion推理速度翻倍-低调大师

“零”代码改动，静态编译让太乙Stable Diffusion推理速度翻倍

2023-01-18 661

AI 作图领域的工具一直不尽如人意，直到去年 8 月 Stable Diffusion 开源，成为AI 图像生成领域无可争辩的划时代模型。

为了提升其推理效率，OneFlow 首度将 Stable Diffusion 模型加速至“一秒出图”时代，极大提升了文生图的速度，在AIGC领域引发巨大反响，并得到了 Stability.ai 官方的支持。至今，OneFlow 还在不断刷新 SOTA 纪录。

不过，由于目前大部分团队主要是基于翻译 API + 英文 Stable Diffusion 模型进行开发，所以在使用中文独特的叙事和表达时，英文版模型就很难给出正确匹配的图片内容，这对部分国内用户来说不太方便。

为了解决这一问题，国内的IDEA 研究院认知计算与自然语言研究中心（IDEA CCNL）也开源了第一个中文版本的“太乙 Stable Diffusion”，基于0.2亿筛选过的中文图文对训练。上个月，太乙 Stable Diffusion 在 HuggingFace 上有近 15 万下载量，是下载量最大的中文 Stable Diffusion。

近期，OneFlow 团队为太乙 Stable Diffusion 适配了 OneFlow 后端，大大提升了推理性能，也可以做到一秒出图。不少开发者好奇OneFlow使用了哪些优化“秘笈”，后文将进行简要解读。

欢迎Star、运行 OneFlow 版太乙 Stable Diffusion：

https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion#without-docker

1
对比 PyTorch，OneFlow 将“太乙 Stable Diffusion”推理速度提升1倍以上

下面的图表分别展示了在 A100 (PCIe 40GB / SXM 80GB)，V100 ( SXM2 32GB )， RTX 2080，RTX 3080 Ti，RTX 3090，和 T4 不同类型的 GPU 硬件上分别使用 PyTorch, 和 OneFlow对太乙 Stable Diffusion 进行推理的性能表现。

可以看到，对于 A100 显卡，无论是 PCIe 40GB 的配置还是 SXM 80GB 的配置，OneFlow 的性能相比 PyTorch 能提升 1 倍以上，推理速度达到了 50it/s 以上，生成一张图片所需要的时间在 1 秒以内。

其他硬件数据：

注：3090上的AIT数据由 IDEA 研究院提供

综上，在各种硬件的对比中，对比 PyTorch， OneFlow 能将太乙 Stable Diffusion 的推理性能提升 1 倍多。

2 生成图片展示

滔滔江水, 连绵不绝, 唯美, 插画

长城, 清晨, 朦胧, 唯美, 插画

梦回江南，中国古代小镇，唯美，插画

中国的未来城市, 科幻插画

古代建筑, 白雪纷飞

螺蛳粉

注：上述图片均基于 OneFlow 版太乙 Stable Diffusion 生成

3 无缝兼容 PyTorch 生态

想体验 OneFlow 版的太乙 Stable Diffusion？只需要修改两行代码：

之所以能这么轻松迁移模型，是因为 OneFlow Stable Diffusion 有两个出色的特性：

OneFlowStableDiffusionPipeline.from_pretrained 能够直接使用 PyTorch 权重。
OneFlow 本身的 API 和 PyTorch 对齐，因此 import oneflow as torch 之后，torch.autocast、torch.float16 等表达式完全不需要修改。

上述特性使得 OneFlow 兼容了 PyTorch 的生态，这不仅在 OneFlow 对太乙 Stable Diffusion 的迁移中发挥了作用，也大大加速了 OneFlow 用户迁移其它许多模型，比如在和 torchvision 对标的 flowvision 中，许多模型只需通过在 torchvision 模型文件中加入 import oneflow as torch 即可得到。

此外，OneFlow 还提供全局 “mock torch” 功能，在命令行运行 eval $(oneflow-mock-torch) 就可以让接下来运行的所有 Python 脚本里的 import torch 都自动指向 oneflow。

4

动静一体的编程体验

深度学习算法原型开发阶段需要快速修改和调试，动态图执行（Eager mode, define by run）最优。但在部署阶段，模型已经固定下来，计算效率变得更重要，静态图执行（Lazy mode，define and run）可以借助编译器做静态优化来获得更好的性能。因此，推理阶段主要使用静态图模式。

最近，PyTorch 升级到2.0引入了compile()这个API，可以把一个模型或一个Module从动态图执行变成静态图执行。OneFlow里也有一个类似的机制，不过接口名是nn.Graph()，它可以把传入Module转成静态图执行模式。

不仅如此，OneFlow的nn.Graph模式基于MLIR实现了一系列计算图的图层优化 ，譬如内存布局、算子融合等。

这不仅使得计算图表示的深度学习模型可以在各种硬件上达到最高性能，更重要的是，使得深度学习框架导入的计算图更方便地在不同硬件之间实现迁移，有助于克服国产硬件软件生态薄弱的问题。未来，我们将发布更多内容来揭示OneFlow深度学习编译器的设计和实现。

欢迎Star、运行 OneFlow 版太乙 Stable Diffusion：

https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion#without-docker

OneFlow 地址：https://github.com/Oneflow-Inc/oneflow/

其他人都在看

欢迎Star、试用OneFlow最新版本：https://github.com/Oneflow-Inc/oneflow/

本文分享自微信公众号 - OneFlow（OneFlowTechnology）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/oneflow/blog/6845440

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GLM国产大模型训练加速：性能最高提升3倍，显存节省1/3，低成本上手

作者｜BBuf、谢子鹏、冯文 2017 年，Google 提出了 Transformer 架构，随后 BERT 、GPT、T5等预训练模型不断涌现，并在各项任务中都不断刷新 SOTA 纪录。去年，清华提出了 GLM 模型（ https://github.com/THUDM/GLM ），不同于上述预训练模型架构，它采用了一种自回归的空白填充方法，在 NLP 领域三种主要的任务（自然语言理解、无条件生成、有条件生成）上都取得了不错的结果。很快，清华基于 GLM 架构又推出了 GLM-130B（ https://keg.cs.tsinghua.edu.cn/glm-130b/zh/posts/glm-130b/ ），这是一个开源开放的双语（中文和英文）双向稠密模型，拥有 1300 亿参数，在语言理解、语言建模、翻译、Zero-Shot 等方面都更加出色。预训练模型的背后离不开开源深度学习框架的助力。在此之前，GLM 的开源代码主要是由 PyTorch、DeepSpeed 以及 Apex 来实现，并且基于 DeepSpeed 提供的数据并行和模型并行技术训练了 GLM-Large（...

2023-01-19

539

最近在排查一个sparkstreaming在操作kafka时，rebalance触发了一个异常引起任务失败，而组内小伙伴对消费者组的一些基本知识不是很了解，所以抽了些时间进行相关原理的整理。本文就来聊聊相关内容。【消费者组的基本原理】在kafka中，多个消费者可以组成一个消费者组（consumer group），但是一个消费者只能属于一个消费者组。消费者组保证其订阅的topic的每个分区只能分配给该消费者组中的某一个消费者进行处理，那么这里可能就会出现两种情况：当消费者组中的消费者个数小于订阅的topic的分区数时，那么存在一个消费者到多个分区进行消费的情况；而如果消费者组中的消费者个数大于订阅的topic的分区数时，那么就会有一部分消费者分配不到分区信息，出现消费者浪费的情况。另外，如果不同的消费者组订阅了同一个topic，不同的消费者组彼此互不干扰。【消费者组的原理深入】 1.group coordinator的概念在早期版本中（0.9版本之前），kafka强依赖于zookeeper实现消费者组的管理，包括消费者组内的消费者通过在zk上抢占znode节点来决定消费哪些...

2023-01-13

656

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

“零”代码改动，静态编译让太乙Stable Diffusion推理速度翻倍

1
对比 PyTorch，OneFlow 将“太乙 Stable Diffusion”推理速度提升1倍以上

2