专为手机设计的最强高速推理引擎 PowerInfer-2,每秒 11.68 token,比其它最强快 22 倍,来自上海交通大学 IPADS
PowerInfer-2 是专为智能手机设计的高度优化的推理框架。PowerInfer-2 最多支持 Mixtral 47B MoE 模型,实现每秒 11.68 个令牌的惊人速度,比其它最先进的框架快 22 倍。即使对于 7B 型号,仅将 FFN 权重的 50% 放置在手机上,PowerInfer-2 仍然保持最先进的速度!
- 异构计算:将粗粒度的矩阵计算分解为细粒度的“神经元簇”,然后根据不同硬件组件的特性动态调整这些簇的大小。
- I/O 计算管道:神经元缓存和细粒度神经元簇级管道技术旨在最大化神经元加载和计算之间的重叠。
PowerInfer-2 的一个显著优势是其内存使用量显著减少。对 TurboSparse-Mixtral 模型施加了各种内存限制的情况下,比较 PowerInfer-2、LLM in a Flash 和 llama.cpp 的解码速度。结果清楚地表明,PowerInfer-2 明显优于其它框架。
PowerInfer-2 的另一个优势是其推理速度的提升。无论是在全内存场景还是卸载场景中,PowerInfer-2 的表现都远远优于其它框架,尤其是在智能手机上。
对于 7B LLM,PowerInfer-2 的技术可以节省近 40% 的内存使用量,同时实现与 llama.cpp 和 MLC-LLM 一样快的推理速度。
使用不同的卸载设置对 TurboSparse-Mistral-7B 上的 PowerInfer-2、llama.cpp 和 MLC-LLM 进行解码的速度。“50% 卸载”表示 FFN 块的 50% 模型权重被卸载到闪存中。“无卸载”表示所有模型参数都驻留在内存中。红色标签 ⨉ 表示由于缺乏权重卸载支持而导致执行失败。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
蚂蚁集团:2023 年研发投入 211.9 亿元
蚂蚁集团今日发布《2023年可持续发展报告》,年度研发投入为211.9亿元,聚焦人工智能和数据要素技术等领域。全球共持有授权专利22102件,发明专利占比达95.7%,区块链授权专利数全球排名第一。新增标准立项195项(包括国际标准12项、国家标准35项)。 报告指出,2023年,蚂蚁提出AI First的战略方向,围绕可信智能技术领域和人机融合方向,坚定投入,全年科研经费达到211.9亿元,连续三年保持增长,并保持在民营企业前十位。 其自研的“蚂蚁百灵”大模型建立了万卡异构集群的算力、检测和防御一体化的安全能力以及万亿级Token语料的知识能力,并通过国家备案。蚂蚁大模型坚持面向产业、全栈布局,当下重点破局三个应用,分别是生活管家“支付宝智能助理”、就医助理“安诊儿”和金融管家“支小宝”。 “在科技创新的征程上,开放开源是我们的基本原则。我们重视科技生态的建设,一枝独秀不是春。我们已与国内外9所名校共建16家联合实验室,蚂蚁开源累计沉淀超过1,900个开源仓库。面向未来,蚂蚁将以更大力度投入科技创新,聚焦人工智能和数据要素技术,将服务实体经济作为科技创新的落脚点,为社会创造更大价值。...
- 下一篇
基于Ascend C的FlashAttention算子性能优化最佳实践
本文分享自华为云社区《基于Ascend C的FlashAttention算子性能优化最佳实践》,作者:昇腾CANN。 LLM的Attention部分处理给计算系统带来巨大的计算和访存压力。业界先后出现FlashAttention、FlashAttention2等算法,通过计算等价和切分有效降低HBM数据访问量。 昇腾异构计算架构CANN针对昇腾AI处理器的片上内存和缓存大小,以及数据搬运通路,基于Ascend C算子编程语言优化实现FlashAttention融合算子,充分利用片上缓存,提升Attention处理性能。根据实测,在一些典型场景中CANN的FlashAttention算子相比小算子取得了5倍以上的性能提升,开发者可直接调用相关算子API接口使能大模型极致性能优化。 本文针对FlashAttention反向融合算子的性能优化方案展开介绍,并通过优化实现了典型场景4倍左右的性能提升,希望对开发者优化此类基于Ascend C开发的融合算子带来启发。 FlashAttention算法简介 在主流大模型网络模型中,大量使用典型的Multi-Head Attention结构,带来了巨...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7