您现在的位置是:首页 > 文章详情

专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS

日期:2024-06-13点击:176

PowerInfer-2 是专为智能手机设计的高度优化的推理框架。PowerInfer-2 最多支持 Mixtral 47B MoE 模型,实现每秒 11.68 个令牌的惊人速度,比其它最先进的框架快 22 倍。即使对于 7B 型号,仅将 FFN 权重的 50% 放置在手机上,PowerInfer-2 仍然保持最先进的速度!


PowerInfer-2 的速度很快:

  • 异构计算:将粗粒度的矩阵计算分解为细粒度的“神经元簇”,然后根据不同硬件组件的特性动态调整这些簇的大小。
  • I/O 计算管道:神经元缓存和细粒度神经元簇级管道技术旨在最大化神经元加载和计算之间的重叠。

PowerInfer-2 的一个显著优势是其内存使用量显著减少。对 TurboSparse-Mixtral 模型施加了各种内存限制的情况下,比较 PowerInfer-2、LLM in a Flash 和 llama.cpp 的解码速度。结果清楚地表明,PowerInfer-2 明显优于其它框架。

PowerInfer-2 的另一个优势是其推理速度的提升。无论是在全内存场景还是卸载场景中,PowerInfer-2 的表现都远远优于其它框架,尤其是在智能手机上。

对于 7B LLM,PowerInfer-2 的技术可以节省近 40% 的内存使用量,同时实现与 llama.cpp 和 MLC-LLM 一样快的推理速度。

使用不同的卸载设置对 TurboSparse-Mistral-7B 上的 PowerInfer-2、llama.cpp 和 MLC-LLM 进行解码的速度。“50% 卸载”表示 FFN 块的 50% 模型权重被卸载到闪存中。“无卸载”表示所有模型参数都驻留在内存中。红色标签 ⨉ 表示由于缺乏权重卸载支持而导致执行失败。

 

原文链接:https://www.oschina.net/news/297053/powerinfer-2
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章