腾讯联合英伟达开源 TensorRT 插件自动生成工具 TPAT
2022 年 3 月 25 日,腾讯联合英伟达开发的 TensorRT 插件自动生成工具 TPAT 正式宣布开源。 TensorRT 是当前应用最广的 GPU 推理框架,但由于支持的算子数量有限,用户面临手写插件以支持算子的痛点。TPAT 能够支持开放神经网络交换 (ONNX) 格式所有的算子,端到端生成 TensorRT 插件,在解放人力成本的同时,性能对比手写毫不逊色。 TPAT Github 地址:https://github.com/Tencent/TPAT 背景 TensorRT 是当今最快的 GPU 推理引擎,可以让深度学习模型在 GPU 上实现低延迟、高吞吐量的部署,支持 Caffe,TensorFlow,Mxnet,Pytorch 等主流深度学习框架,由英伟达开发维护。业界几乎所有 GPU 推理业务都在使用TensorRT。 但是 TensorRT 也存在缺陷,即它的部署流程比较繁琐,因此算法工程师提供的模型需要交由系统工程师来部署上线,非常耗时耗力。在传统的 TensorRT 工作流里,手写插件往往是最耗时的一部分。 TensorRT 手写算子插件难点 ⦁ Tenso...










