Paddle Lite v2.3 发布,模型压缩 75%,推理速度提升 20%
Paddle Lite v2.3发布了,新功能包括: 支持“无校准数据的训练后量化”方法,模型压缩高达75%。 优化网络结构和OP,ARM CPU推理速度最高提升超20%。 简化模型优化工具操作流程,支持一键操作,用户上手更容易。 了解更多内容,查看PaddlePaddle官网。 支持“无校准数据的训练后量化”方法模型压缩高达75% 在手机等终端设备上部署深度学习模型,通常要兼顾推理速度和存储空间。一方面要求推理速度越快越好,另一方面要求模型更加的轻量化。为了解决这一问题,模型量化技术尤其关键。 模型量化是指使用较少比特数表示神经网络的权重和激活,能够大大降低模型的体积,解决终端设备存储空间有限的问题,同时加快了模型推理速度。将模型中特定OP权重从FP32类型量化成INT8/16类型,可以大幅减小模型体积。经验证,将权重量化为INT16类型,量化模型的体积降低50%;将权重量化为INT8类型,量化模型的体积降低75%。 Paddle Lite结合飞桨量化压缩工具PaddleSlim,为开发者提供了三种产出量化模型的方法:量化训练、有校准数据的训练后量化和无校准数据的训练后量化。 其中“...