微信开源推理加速工具 TurboTransformers，性能超越 PyTorch/TensorFlow 与主流优化引擎-低调大师

微信开源推理加速工具 TurboTransformers，性能超越 PyTorch/TensorFlow 与主流优化引擎

2020-04-24 974

腾讯宣布开源 Transformer 推理加速工具 TurboTransformers。该工具面向自然语言处理领域中 Transformers 相关模型丰富的线上预测场景，据介绍，其在微信、腾讯云、QQ 看点等产品的线上服务中已经广泛应用，这也是腾讯对外开源的第 100 个项目。

在自然语言处理领域中，以 BERT 为代表的 Transformers 相关神经网络模型是近年来最重要的模型创新，可以为阅读理解、文章摘要、语义分类、同义改写等 NLP 任务提供显著的效果提升。但提高模型精度的同时，Transformes 相关模型也带来了更多的计算量。

由于深度学习的训练和推理任务存在差异，训练框架直接应用于线上推理并不能得到极致的性能。众多模型算法工程师都遇到了训练的模型效果很好，但因为响应延迟不满足要求，导致模型无法上线的问题。

在这种背景下，腾讯微信团队研发了 TurboTransformers 加速器。它来自于深度学习自然语言处理基础平台 TencentNLP Oteam，旨在搭建统一的深度学习 NLP （Natural Language Processing，自然语言处理）基础平台、提升研发效能。特性主要有三点：

优异的 CPU/GPU 性能表现。面向 Intel 多核 CPU 和 NVIDIA GPU 硬件平台，通过核心融合和并行算法优化，TurboTransformers 充发挥硬件的各层级并行计算的能力。在多种 CPU 和 GPU 硬件上获得了超过 PyTorch/TensorFlow 和目前主流优化引擎（如 onnxruntime-mkldnn/onnxruntime-gpu、torch JIT、NVIDIA faster transformers）的性能表现。
为 NLP 推理任务特点量身定制。TurboTransformers 可以支持变长输入序列处理，无需序列补零、截断或者分桶带来的无用计算，也无需任何针对计算图在推理前进行预调优的过程。
简单的使用方式。TurboTransformers 支持 Python 和 C++ 接口进行调用。TurboTransformers 支持 TensorFlow 和 PyTorch 预训练模型的载入。它可以作为 huggingface/transformers 的推理加速插件，通过加入几行 Python 代码获得对 BERT 模型的端对端加速效果。

相比其它同类项目：

腾讯介绍，TurboTransformers 让微信内部众多 NLP 线上应用能够充分榨取底层硬件的计算能力，让算法更好地服务的用户。具体来说 TurboTransformers 在算子优化、框架优化和接口部署方式简化三个方面做了工作。

TurboTransformers 架构

算子层优化

如下图所示，Transformer 架构中的 Transformer Cell 计算包含了 8 个 GEMM（通用矩阵乘法，General Matrix Multiplication）运算。其中，(a) 中灰色方框内的结构为一个 Transformer Cell，BERT encoder 堆叠了 Nx 个这样的 Transformer Cell；(b) 将一个 Cell 的细节加以展开，每一个矩形都是一个独立的计算核心。

TurboTransformers 通过调优 Intel MKL 和 cuBLAS 的 GEMM 调用方式获得最佳 GEMM 性能。通过调整了预训练矩阵存储方式，并且在硬件允许条件下，在 GPU 上使用 tensor core 方式进行 GEMM 运算。

类似 NVIDIA FasterTransformers 方案，TurboTransformers 将 Transformer 中的所有 GEMM（通用矩阵乘法，General Matrix Multiplication）运算之间的计算融合成一个调用核心。融合会带来两个好处，一是减少了内存访问开销，二是减少多线程启动开销。对于这些核心，在 CPU 上采用 openmp 进行并行，在 GPU 上使用 CUDA 进行优化实现。对于比较复杂的 LayerNorm 和 Softmax 算子，它们包含了不适合 GPU 上并行的规约操作，TurboTransformers 为它们设计了创新并行算法，极大降低了这些算子的延迟。理论上 Transformers 推理延迟应该近似于矩阵乘法延迟。

框架层优化

由于 NLP 的采用变长输入特性，每次运算中间结果的大小其实并不相同，为了避免每次都分配释放内存，TurboTransformers 通过 Caching 方式管理显存。

为了能够无缝支持 PyTorch/TensorFlow 训练好的序列化模型，项目中提供了一些脚本可以将二者的预训练模型转化为 npz 格式，供 TurboTransformers 读入。特别考虑到 PyTorch huggingface/transformers 是目前最流行的 Transformers 训练方法，TurboTransformers 支持直接读入 huggingface/transformers 预训练模型。

应用部署

TurboTransformers 提供了 C++ 和 Python 调用接口，可以嵌入到 C++ 多线程后台服务流中，也可以加入到 PyTorch 服务流中。官方建议通过 Docker 部署 TurboTransformers，一方面保证编译的可移植性，另一方面也可以无缝应用于 K8S 等线上部署平台。

性能方面，官方分别以 CPU 和 GPU 两方面进行测试：

CPU 测试效果

在 3 种 CPU 硬件平台测试了 TurboTransformers 的性能表现，选择 pytorch、pytorch-jit 和 onnxruntime-mkldnn 和 TensorRT 实现作为对比。性能测试结果为迭代 150 次的均值。为了避免多次测试时，上次迭代的数据在 cache 中缓存的现象，每次测试采用随机数据，并在计算后刷新的 cache 数据。

Intel Xeon 61xx

Intel Xeon 6133

相比 61xx 型号，Intel Xeon 6133 向量化长度更长为 512 bit，并且它拥有一个 30 MB 核间共享 L3 cache。

GPU 测试效果

在 4 种 GPU 硬件平台测试了 TurboTransformers 的性能表现，选择 pytorch、NVIDIA Faster Transformers、onnxruntime-gpu TensorRT 实现作为对比。性能测试结果为迭代 150 次的均值。

RTX 2060

Tesla V100

Tesla P40

Tesla M40

同时，腾讯也表示，TurboTransformers 目前只支持了 FP32 的计算，对于 GPU FP16 的支持将在后续提供。TurboTransformers 目前重点支持了 BERT 模型，未来也会增加 TurboTransformers 的自动化优化能力。另外，TurboTransformers 解决了计算加速的问题，用户还需要自己搭建服务框架，未来腾讯也会将服务流程开源，打通用户上线的最后一站。

微信关注我们

原文链接：https://www.oschina.net/news/115146/tencent-wechat-opensource-turbotransformers

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

优麒麟 20.04 LTS 版本发布，UKUI3.0 灵动转身

北京时间 2020 年 4 月 23 日，优麒麟团队很高兴地宣布优麒麟（Ubuntu Kylin）开源操作系统 20.04 LTS 版本（代号FocalFossa）正式发布。优麒麟 20.04 是继 14.04、16.04、18.04 之后的第四个长期支持（LTS）版本，提供 5 年的技术支持。全球同步发布的还有 Ubuntu 20.04、Lubuntu 20.04、Xubuntu 20.04、Ubuntu Mate 20.04 等开源发行版。此次发布的优麒麟 20.04 LTS 版本默认搭载最新 Linux 5.4 内核和全新 UKUI3.0 桌面环境预览版，同时支持 x86 和 ARM64 体系结构，进一步优化提升 4K 高清屏显示效果和应用组件稳定性。新增麒麟云账户功能，统一麒麟各平台身份认证，并提供用户常用配置云端同步功能。修复了任务栏无法预览最小化应用、文件管理器内存泄漏等 539 个已知问题，从而为用户提供更加高效稳定的使用体验。欢迎小伙伴们下载试用，并反馈您的使用体验和优化意见。 UKUI 3.0 | 减繁取易，温润灵性减繁取易，源自对事物的理解；柔和色彩，蕴含若...

2020-04-24

810

作者 | 声东阿里云技术专家 <关注公众号，回复排查即可下载电子书> 《深入浅出 Kubernetes》一书共汇集 12 篇技术文章，帮助你一次搞懂 6 个核心原理，吃透基础理论，一次学会 6 个典型问题的华丽操作！以下内容节选自本书：阿里云 K8s 集群的一个重要特性，是集群的节点可以动态的增加或减少。有了这个特性，集群才能在计算资源不足的情况下扩容新的节点，同时也可以在资源利用率降低的时候，释放节点以节省费用。这篇文章，我们将讨论阿里云 K8s 集群扩容与缩容的实现原理。理解实现原理，在遇到问题的时候，我们就可以高效地排查并定位原因。虽然我们的讨论是基于1.12.6 版本的，但是理论上后续版本与这篇文章所述集群伸缩原理出入不大。节点增加原理阿里云 K8s 集群可以给集群增加节点的方式有，添加已有节点，集群扩容，

2020-04-23

728

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。