微信开源推理加速工具 TurboTransformers,性能超越 PyTorch/TensorFlow 与主流优化引擎
腾讯宣布开源 Transformer 推理加速工具 TurboTransformers。该工具面向自然语言处理领域中 Transformers 相关模型丰富的线上预测场景,据介绍,其在微信、腾讯云、QQ 看点等产品的线上服务中已经广泛应用,这也是腾讯对外开源的第 100 个项目。
在自然语言处理领域中,以 BERT 为代表的 Transformers 相关神经网络模型是近年来最重要的模型创新,可以为阅读理解、文章摘要、语义分类、同义改写等 NLP 任务提供显著的效果提升。但提高模型精度的同时,Transformes 相关模型也带来了更多的计算量。
由于深度学习的训练和推理任务存在差异,训练框架直接应用于线上推理并不能得到极致的性能。众多模型算法工程师都遇到了训练的模型效果很好,但因为响应延迟不满足要求,导致模型无法上线的问题。
在这种背景下,腾讯微信团队研发了 TurboTransformers 加速器。它来自于深度学习自然语言处理基础平台 TencentNLP Oteam,旨在搭建统一的深度学习 NLP (Natural Language Processing,自然语言处理)基础平台、提升研发效能。特性主要有三点:
- 优异的 CPU/GPU 性能表现。面向 Intel 多核 CPU 和 NVIDIA GPU 硬件平台,通过核心融合和并行算法优化,TurboTransformers 充发挥硬件的各层级并行计算的能力。在多种 CPU 和 GPU 硬件上获得了超过 PyTorch/TensorFlow 和目前主流优化引擎(如 onnxruntime-mkldnn/onnxruntime-gpu、torch JIT、NVIDIA faster transformers)的性能表现。
- 为 NLP 推理任务特点量身定制。TurboTransformers 可以支持变长输入序列处理,无需序列补零、截断或者分桶带来的无用计算,也无需任何针对计算图在推理前进行预调优的过程。
- 简单的使用方式。TurboTransformers 支持 Python 和 C++ 接口进行调用。TurboTransformers 支持 TensorFlow 和 PyTorch 预训练模型的载入。它可以作为 huggingface/transformers 的推理加速插件,通过加入几行 Python 代码获得对 BERT 模型的端对端加速效果。
相比其它同类项目:
腾讯介绍,TurboTransformers 让微信内部众多 NLP 线上应用能够充分榨取底层硬件的计算能力,让算法更好地服务的用户。具体来说 TurboTransformers 在算子优化、框架优化和接口部署方式简化三个方面做了工作。
TurboTransformers 架构
算子层优化
如下图所示,Transformer 架构中的 Transformer Cell 计算包含了 8 个 GEMM(通用矩阵乘法,General Matrix Multiplication)运算。其中,(a) 中灰色方框内的结构为一个 Transformer Cell,BERT encoder 堆叠了 Nx 个这样的 Transformer Cell;(b) 将一个 Cell 的细节加以展开,每一个矩形都是一个独立的计算核心。
TurboTransformers 通过调优 Intel MKL 和 cuBLAS 的 GEMM 调用方式获得最佳 GEMM 性能。通过调整了预训练矩阵存储方式,并且在硬件允许条件下,在 GPU 上使用 tensor core 方式进行 GEMM 运算。
类似 NVIDIA FasterTransformers 方案,TurboTransformers 将 Transformer 中的所有 GEMM(通用矩阵乘法,General Matrix Multiplication) 运算之间的计算融合成一个调用核心。融合会带来两个好处,一是减少了内存访问开销,二是减少多线程启动开销。对于这些核心,在 CPU 上采用 openmp 进行并行,在 GPU 上使用 CUDA 进行优化实现。对于比较复杂的 LayerNorm 和 Softmax 算子,它们包含了不适合 GPU 上并行的规约操作,TurboTransformers 为它们设计了创新并行算法,极大降低了这些算子的延迟。理论上 Transformers 推理延迟应该近似于矩阵乘法延迟。
框架层优化
由于 NLP 的采用变长输入特性,每次运算中间结果的大小其实并不相同,为了避免每次都分配释放内存,TurboTransformers 通过 Caching 方式管理显存。
为了能够无缝支持 PyTorch/TensorFlow 训练好的序列化模型,项目中提供了一些脚本可以将二者的预训练模型转化为 npz 格式,供 TurboTransformers 读入。特别考虑到 PyTorch huggingface/transformers 是目前最流行的 Transformers 训练方法,TurboTransformers 支持直接读入 huggingface/transformers 预训练模型。
应用部署
TurboTransformers 提供了 C++ 和 Python 调用接口,可以嵌入到 C++ 多线程后台服务流中,也可以加入到 PyTorch 服务流中。官方建议通过 Docker 部署 TurboTransformers,一方面保证编译的可移植性,另一方面也可以无缝应用于 K8S 等线上部署平台。
性能方面,官方分别以 CPU 和 GPU 两方面进行测试:
CPU 测试效果
在 3 种 CPU 硬件平台测试了 TurboTransformers 的性能表现,选择 pytorch、pytorch-jit 和 onnxruntime-mkldnn 和 TensorRT 实现作为对比。性能测试结果为迭代 150 次的均值。为了避免多次测试时,上次迭代的数据在 cache 中缓存的现象,每次测试采用随机数据,并在计算后刷新的 cache 数据。
- Intel Xeon 61xx
- Intel Xeon 6133
相比 61xx 型号,Intel Xeon 6133 向量化长度更长为 512 bit,并且它拥有一个 30 MB 核间共享 L3 cache。
GPU 测试效果
在 4 种 GPU 硬件平台测试了 TurboTransformers 的性能表现,选择 pytorch、NVIDIA Faster Transformers、onnxruntime-gpuTensorRT 实现作为对比。性能测试结果为迭代 150 次的均值。
- RTX 2060
- Tesla V100
- Tesla P40
- Tesla M40
同时,腾讯也表示,TurboTransformers 目前只支持了 FP32 的计算,对于 GPU FP16 的支持将在后续提供。TurboTransformers 目前重点支持了 BERT 模型,未来也会增加 TurboTransformers 的自动化优化能力。另外,TurboTransformers 解决了计算加速的问题,用户还需要自己搭建服务框架,未来腾讯也会将服务流程开源,打通用户上线的最后一站。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
优麒麟 20.04 LTS 版本发布,UKUI3.0 灵动转身
北京时间 2020 年 4 月 23 日,优麒麟团队很高兴地宣布优麒麟(Ubuntu Kylin)开源操作系统 20.04 LTS 版本(代号FocalFossa)正式发布。优麒麟 20.04 是继 14.04、16.04、18.04 之后的第四个长期支持(LTS)版本,提供 5 年的技术支持。全球同步发布的还有 Ubuntu 20.04、Lubuntu 20.04、Xubuntu 20.04、Ubuntu Mate 20.04 等开源发行版。 此次发布的优麒麟 20.04 LTS 版本默认搭载最新 Linux 5.4 内核和全新 UKUI3.0 桌面环境预览版,同时支持 x86 和 ARM64 体系结构,进一步优化提升 4K 高清屏显示效果和应用组件稳定性。新增麒麟云账户功能,统一麒麟各平台身份认证,并提供用户常用配置云端同步功能。修复了任务栏无法预览最小化应用、文件管理器内存泄漏等 539 个已知问题,从而为用户提供更加高效稳定的使用体验。欢迎小伙伴们下载试用,并反馈您的使用体验和优化意见。 UKUI 3.0 | 减繁取易,温润灵性 减繁取易,源自对事物的理解; 柔和色彩,蕴含若...
- 下一篇
K8s 从懵圈到熟练-集群伸缩原理
作者 | 声东 阿里云技术专家 <关注公众号,回复排查即可下载电子书> 《深入浅出 Kubernetes》一书共汇集 12 篇技术文章,帮助你一次搞懂 6 个核心原理,吃透基础理论,一次学会 6 个典型问题的华丽操作!以下内容节选自本书: 阿里云 K8s 集群的一个重要特性,是集群的节点可以动态的增加或减少。有了这个特性,集群才能在计算资源不足的情况下扩容新的节点,同时也可以在资源利用率降低的时候,释放节点以节省费用。 这篇文章,我们将讨论阿里云 K8s 集群扩容与缩容的实现原理。理解实现原理,在遇到问题的时候,我们就可以高效地排查并定位原因。 虽然我们的讨论是基于1.12.6 版本的,但是理论上后续版本与这篇文章所述集群伸缩原理出入不大。 节点增加原理 阿里云 K8s 集群可以给集群增加节点的方式有,添加已有节点,集群扩容,
相关文章
文章评论
共有0条评论来说两句吧...