Tritonserver 在得物的最佳实践
一、Tritonserver 介绍 Tritonserver是Nvidia推出的基于GPU和CPU的在线推理服务解决方案,因其具有高性能的并发处理和支持几乎所有主流机器学习框架模型的特点,是目前云端的GPU服务高效部署的主流方案。 Tritonserver的部署是以模型仓库(Model Repository)的形式体现的,即需要模型文件和配置文件,且按一定的格式放置如下,根目录下每个模型有各自的文件夹。 ./ └── my_model_repo ├── 1 │ └── model.plan └── config.pbtxt Tritonserver 有auto-generate-config功能,关于模型的输入(inputs)、输出(outputs)和最大batch(max_batch_size)等可以根据对模型的分析自动生成,对onnx, tensorrt, tf saved model等带模型结构的模型极为方便,最简便的config.pbtxt可以只定义模型的name和backend,例如针对上述模型: # config.pbtxt name: "my_model_repo" ba...