如何让手机快速运行AI应用?这有份TVM优化教程
本文来自AI新媒体量子位(QbitAI)
在移动设备上部署深度神经网络的需求正在快速增加。
和桌面平台类似,GPU也能在移动平台加速推理速度、降低能耗。但问题是,大多数现有深度学习框架并不能很好的支持移动GPU。
为什么会这样?因为移动GPU和桌面GPU在架构上存在差异。
所以想要利用移动GPU,还得进行专门的优化。这种额外的工作,最终导致的结果就是大多数深度学习框架都对移动GPU的支持不足。
TVM通过引入一个统一的IR堆栈来解决不同硬件平台的部署问题。使用TVM/NNVM可以为ARM Mali GPU生成高效内核,并且进行端到端的编译。
基于Mali-T860 MP4的测试结果表明,与Arm Compute Library相比,上面这个方法在VGG-16上快1.4倍,在MobileNet上快2.2倍。
在郑怜悯发表的这篇文章中,他还从GPU