在英特尔 CPU 上加速 Stable Diffusion 推理-低调大师

在英特尔 CPU 上加速 Stable Diffusion 推理

2023-04-11 465

前一段时间，我们向大家介绍了最新一代的英特尔至强 CPU (代号 Sapphire Rapids)，包括其用于加速深度学习的新硬件特性，以及如何使用它们来加速自然语言 transformer 模型的分布式微调和推理。

英特尔至强处理器:
https://www.intel.com/content/www/us/en/products/details/processors/xeon/scalable.html
使用英特尔处理器加速分布式微调:
https://hf.co/blog/zh/intel-sapphire-rapids
使用英特尔处理器加速推理:
https://hf.co/blog/zh/intel-sapphire-rapids-inference

本文将向你展示在 Sapphire Rapids CPU 上加速 Stable Diffusion 模型推理的各种技术。后续我们还计划发布对 Stable Diffusion 进行分布式微调的文章。

在撰写本文时，获得 Sapphire Rapids 服务器的最简单方法是使用 Amazon EC2 R7iz 系列实例。由于它仍处于预览阶段，你需要注册才能获得访问权限。与之前的文章一样，我使用的是 r7iz.metal-16xl 实例 (64 个 vCPU，512GB RAM)，操作系统镜像为 Ubuntu 20.04 AMI (ami-07cd3e6c4915b2d18)。

R7iz 实例信息:
https://aws.amazon.com/ec2/instance-types/r7iz/
注册页面:
https://pages.awscloud.com/R7iz-Preview.html

本文的代码可从 Gitlab 上获取。我们开始吧！
https://gitlab.com/juliensimon/huggingface-demos/-/tree/main/optimum/stable_diffusion_intel

Diffusers 库

Diffusers 库使得用 Stable Diffusion 模型生成图像变得极其简单。如果你不熟悉 Stable Diffusion 模型，这里有一个很棒的图文介绍。

Diffusers:
https://hf.co/docs/diffusers/index
图文介绍:
https://jalammar.github.io/illustrated-stable-diffusion/

首先，我们创建一个包含以下库的虚拟环境: Transformers、Diffusers、Accelerate 以及 PyTorch。

virtualenv sd_inference
source sd_inference/bin/activate
pip install pip --upgrade
pip install transformers diffusers accelerate torch==1.13.1

然后，我们写一个简单的基准测试函数，重复推理多次，最后返回单张图像生成的平均延迟。

import time

def elapsed_time(pipeline, prompt, nb_pass=10, num_inference_steps=20):
 # warmup
 images = pipeline(prompt, num_inference_steps=10).images
 start = time.time()
 for _ in range(nb_pass):
  _ = pipeline(prompt, num_inference_steps=num_inference_steps, output_type="np")
 end = time.time()
 return (end - start) / nb_pass

现在，我们用默认的 float32 数据类型构建一个 StableDiffusionPipeline，并测量其推理延迟。

from diffusers import StableDiffusionPipeline

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id)
prompt = "sailing ship in storm by Rembrandt"
latency = elapsed_time(pipe, prompt)
print(latency)

平均延迟为 32.3 秒。正如这个英特尔开发的 Hugging Face Space 所展示的，相同的代码在上一代英特尔至强 (代号 Ice Lake) 上运行需要大约 45 秒。
https://hf.co/spaces/Intel/Stable-Diffusion-Side-by-Side

开箱即用，我们可以看到 Sapphire Rapids CPU 在没有任何代码更改的情况下速度相当快！

现在，让我们继续加速它吧！

Optimum Intel 与 OpenVINO

Optimum Intel 用于在英特尔平台上加速 Hugging Face 的端到端流水线。它的 API 和 Diffusers 原始 API 极其相似，因此所需代码改动很小。

Optimum Intel:
https://hf.co/docs/optimum/intel/index
Diffusers:
https://hf.co/docs/diffusers/index

Optimum Intel 支持 OpenVINO，这是一个用于高性能推理的英特尔开源工具包。
https://docs.openvino.ai/latest/index.html

Optimum Intel 和 OpenVINO 安装如下:

pip install optimum[openvino]

相比于上文的代码，我们只需要将 StableDiffusionPipeline 替换为 OVStableDiffusionPipeline 即可。如需加载 PyTorch 模型并将其实时转换为 OpenVINO 格式，你只需在加载模型时设置 export=True。

from optimum.intel.openvino import OVStableDiffusionPipeline
...
ov_pipe = OVStableDiffusionPipeline.from_pretrained(model_id, export=True)
latency = elapsed_time(ov_pipe, prompt)
print(latency)

# Don't forget to save the exported model
ov_pipe.save_pretrained("./openvino")

OpenVINO 会自动优化 bfloat16 模型，优化后的平均延迟下降到了 16.7 秒，相当不错的 2 倍加速。

上述 pipeline 支持动态输入尺寸，对输入图像 batch size 或分辨率没有任何限制。但在使用 Stable Diffusion 时，通常你的应用程序仅限于输出一种 (或几种) 不同分辨率的图像，例如 512x512 或 256x256。因此，通过固定 pipeline 的输出分辨率来解锁更高的性能增益有其实际意义。如果你需要不止一种输出分辨率，您可以简单地维护几个 pipeline 实例，每个分辨率一个。

ov_pipe.reshape(batch_size=1, height=512, width=512, num_images_per_prompt=1)
latency = elapsed_time(ov_pipe, prompt)

固定输出分辨率后，平均延迟进一步降至 4.7 秒，又获得了额外的 3.5 倍加速。

如你所见，OpenVINO 是加速 Stable Diffusion 推理的一种简单有效的方法。与 Sapphire Rapids CPU 结合使用时，和至强 Ice Lake 的最初性能的相比，推理性能加速近 10 倍。

如果你不能或不想使用 OpenVINO，本文下半部分会展示一系列其他优化技术。系好安全带！

系统级优化

扩散模型是数 GB 的大模型，图像生成是一种内存密集型操作。通过安装高性能内存分配库，我们能够加速内存操作并使之能在 CPU 核之间并行处理。请注意，这将更改系统的默认内存分配库。你可以通过卸载新库来返回默认库。

jemalloc 和 tcmalloc 是两个很有意思的内存优化库。这里，我们使用 jemalloc，因为我们测试下来，它的性能比 tcmalloc 略好。jemalloc 还可以用于针对特定工作负载进行调优，如最大化 CPU 利用率。详情可参考 jemalloc调优指南。

jemalloc:
https://jemalloc.net/
tcmalloc:
https://github.com/gperftools/gperftools
调优指南:
https://github.com/jemalloc/jemalloc/blob/dev/TUNING.md

sudo apt-get install -y libjemalloc-dev
export LD_PRELOAD=$LD_PRELOAD:/usr/lib/x86_64-linux-gnu/libjemalloc.so
export MALLOC_CONF="oversize_threshold:1,background_thread:true,metadata_thp:auto,dirty_decay_ms: 60000,muzzy_decay_ms:60000"

接下来，我们安装 libiomp 库来优化多核并行，这个库是英特尔 OpenMP 运行时库的一部分。
https://www.intel.com/content/www/us/en/docs/cpp-compiler/developer-guide-reference/2021-8/openmp-run-time-library-routines.html

sudo apt-get install intel-mkl
export LD_PRELOAD=$LD_PRELOAD:/usr/lib/x86_64-linux-gnu/libiomp5.so
export OMP_NUM_THREADS=32

最后，我们安装 numactl 命令行工具。它让我们可以把我们的 Python 进程绑定到指定的核，并避免一些上下文切换开销。
https://github.com/numactl/numactl

numactl -C 0-31 python sd_blog_1.py

使用这些优化后，原始的 Diffusers 代码只需 11.8 秒 就可以完成推理，快了几乎 3 倍，而且无需任何代码更改。这些工具在我们的 32 核至强 CPU 上运行得相当不错。

我们还有招。现在我们把 英特尔 PyTorch 扩展 (Intel Extension for PyTorch, IPEX) 引入进来。

IPEX 与 BF16

IPEX 扩展了 PyTorch 使之可以进一步充分利用英特尔 CPU 上的硬件加速功能，包括 AVX-512 、矢量神经网络指令 (Vector Neural Network Instructions，AVX512 VNNI) 以及先进矩阵扩展 (AMX)。

IPEX:
https://intel.github.io/intel-extension-for-pytorch/
AVX-512:
https://en.wikipedia.org/wiki/AVX-512
先进矩阵扩展:
https://en.wikipedia.org/wiki/Advanced_Matrix_Extensions

我们先安装 IPEX。

pip install intel_extension_for_pytorch==1.13.100

装好后，我们需要修改部分代码以将 IPEX 优化应用到 pipeline 的每个模块 (你可以通过打印 pipe 对象罗列出它有哪些模块)，其中之一的优化就是把数据格式转换为 channels-last 格式。

import torch
import intel_extension_for_pytorch as ipex
...
pipe = StableDiffusionPipeline.from_pretrained(model_id)

# to channels last
pipe.unet = pipe.unet.to(memory_format=torch.channels_last)
pipe.vae = pipe.vae.to(memory_format=torch.channels_last)
pipe.text_encoder = pipe.text_encoder.to(memory_format=torch.channels_last)
pipe.safety_checker = pipe.safety_checker.to(memory_format=torch.channels_last)

# Create random input to enable JIT compilation
sample = torch.randn(2,4,64,64)
timestep = torch.rand(1)*999
encoder_hidden_status = torch.randn(2,77,768)
input_example = (sample, timestep, encoder_hidden_status)

# optimize with IPEX
pipe.unet = ipex.optimize(pipe.unet.eval(), dtype=torch.bfloat16, inplace=True, sample_input=input_example)
pipe.vae = ipex.optimize(pipe.vae.eval(), dtype=torch.bfloat16, inplace=True)
pipe.text_encoder = ipex.optimize(pipe.text_encoder.eval(), dtype=torch.bfloat16, inplace=True)
pipe.safety_checker = ipex.optimize(pipe.safety_checker.eval(), dtype=torch.bfloat16, inplace=True)

我们使用了 bloat16 数据类型，以利用 Sapphire Rapids CPU 上的 AMX 加速器。

with torch.cpu.amp.autocast(enabled=True, dtype=torch.bfloat16):
    latency = elapsed_time(pipe, prompt)
    print(latency)

经过此番改动，推理延迟从 11.9 秒进一步减少到 5.4 秒。感谢 IPEX 和 AMX，推理速度提高了 2 倍以上。

还能榨点性能出来吗？能，我们将目光转向调度器 (scheduler)！

调度器

Diffusers 库支持为每个 Stable Diffusion pipiline 配置调度器 (scheduler)，用于在去噪速度和去噪质量之间找到最佳折衷。
https://hf.co/docs/diffusers/using-diffusers/schedulers

根据文档所述:「截至本文档撰写时，DPMSolverMultistepScheduler 能实现最佳的速度/质量权衡，只需 20 步即可运行。」我们可以试一下 DPMSolverMultistepScheduler。

from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
...
dpm = DPMSolverMultistepScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=dpm)

最终，推理延迟降至 5.05 秒。与我们最初的 Sapphire Rapids 基线 (32.3 秒) 相比，几乎快了 6.5 倍！

运行环境: Amazon EC2 r7iz.metal-16xl, Ubuntu 20.04, Linux 5.15.0-1031-aws, libjemalloc-dev 5.2.1-1, intel-mkl 2020.0.166-1, PyTorch 1.13.1, Intel Extension for PyTorch 1.13.1, transformers 4.27.2, diffusers 0.14, accelerate 0.17.1, openvino 2023.0.0.dev20230217, optimum 1.7.1, optimum-intel 1.7

总结

在几秒钟内生成高质量图像的能力可用于许多场景，如 2C 的应用程序、营销和媒体领域的内容生成，或生成合成数据以扩充数据集。

如你想要在这方面起步，以下是一些有用的资源:

Diffusers 文档
https://hf.co/docs/diffusers
Optimum Intel 文档
https://hf.co/docs/optimum/main/en/intel/inference
英特尔 IPEX on GitHub
https://github.com/intel/intel-extension-for-pytorch
英特尔和 Hugging Face 联合出品的开发者资源网站
https://www.intel.com/content/www/us/en/developer/partner/hugging-face.html

如果你有任何问题或反馈，请通过 Hugging Face 论坛告诉我们。
https://discuss.huggingface.co/

感谢垂阅！

英文原文: https://hf.co/blog/stable-diffusion-inference-intel

作者: Julien Simon, Ella Charlaix

译者: MatrixYao

审校/排版: zhongdongy (阿东)

本文分享自微信公众号 - Hugging Face（gh_504339124f0f）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/HuggingFace/blog/8659779

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

使用 LoRA 和 Hugging Face 高效训练大语言模型

在本文中，我们将展示如何使用大语言模型低秩适配 (Low-Rank Adaptation of Large Language Models，LoRA) 技术在单 GPU 上微调 110 亿参数的 FLAN-T5 XXL 模型。在此过程中，我们会使用到 Hugging Face 的 Transformers、Accelerate 和 PEFT 库。大语言模型低秩适配论文: https://arxiv.org/abs/2106.09685 Transformers: https://hf.co/docs/transformers/index Accelerate: https://hf.co/docs/accelerate/index PEFT: https://github.com/huggingface/peft 通过本文，你会学到: 如何搭建开发环境如何加载并准备数据集如何使用 LoRA 和 bnb (即 bitsandbytes) int-8 微调 T5 如何评估 LoRA FLAN-T5 并将其用于推理如何比较不同方案的性价比另外，你可以点击阅读原文在线查看此博文...

2023-04-12

538

一个月前，我们宣布了与 ILLA Cloud 达成的合作：ILLA Cloud 正式支持集成 Hugging Face Hub 上的 AI 模型库和其他相关功能。今天，我们为大家带来 ILLA Cloud 集成 Hugging Face 功能的更新，经过双方团队的沟通和推进，ILLA Cloud 现已发布 2.0 正式版 ——用户可以将 ILLA Cloud 的应用构建能力与 Hugging Face 上先进的 AI 模型相结合，借助两个平台的优势为团队带来更进一步的效率提升。 ILLA Cloud 是一个开源低代码开发平台，用户可以通过连接各种组件和操作来构建企业内部应用程序，Hugging Face 在其中扮演了提供了 AI 模型、工具和资源的供应商。在接下来的内容中，我们将指导你在 ILLA Cloud 中使用 Hugging Face 的 Inference Endpoints 和 Hugging Face Hub 上的 openai/whisper-base 模型创建一个音频转文字应用程序，以展示本次合作的内容和优势以及这项技术的一些可能用例。第一步：用组件搭建前端界面...

2023-04-10

548

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。