专为手机设计的最强高速推理引擎 PowerInfer-2，每秒 11.68 token，比其它最强快 22 倍，来自上海交通大学 IPADS-低调大师

专为手机设计的最强高速推理引擎 PowerInfer-2，每秒 11.68 token，比其它最强快 22 倍，来自上海交通大学 IPADS

2024-06-13 307

PowerInfer-2 是专为智能手机设计的高度优化的推理框架。PowerInfer-2 最多支持 Mixtral 47B MoE 模型，实现每秒 11.68 个令牌的惊人速度，比其它最先进的框架快 22 倍。即使对于 7B 型号，仅将 FFN 权重的 50% 放置在手机上，PowerInfer-2 仍然保持最先进的速度！

PowerInfer-2 的速度很快：

异构计算：将粗粒度的矩阵计算分解为细粒度的“神经元簇”，然后根据不同硬件组件的特性动态调整这些簇的大小。
I/O 计算管道：神经元缓存和细粒度神经元簇级管道技术旨在最大化神经元加载和计算之间的重叠。

PowerInfer-2 的一个显著优势是其内存使用量显著减少。对 TurboSparse-Mixtral 模型施加了各种内存限制的情况下，比较 PowerInfer-2、LLM in a Flash 和 llama.cpp 的解码速度。结果清楚地表明，PowerInfer-2 明显优于其它框架。

PowerInfer-2 的另一个优势是其推理速度的提升。无论是在全内存场景还是卸载场景中，PowerInfer-2 的表现都远远优于其它框架，尤其是在智能手机上。

对于 7B LLM，PowerInfer-2 的技术可以节省近 40% 的内存使用量，同时实现与 llama.cpp 和 MLC-LLM 一样快的推理速度。

使用不同的卸载设置对 TurboSparse-Mistral-7B 上的 PowerInfer-2、llama.cpp 和 MLC-LLM 进行解码的速度。“50% 卸载”表示 FFN 块的 50% 模型权重被卸载到闪存中。“无卸载”表示所有模型参数都驻留在内存中。红色标签 ⨉ 表示由于缺乏权重卸载支持而导致执行失败。

微信关注我们

原文链接：https://www.oschina.net/news/297053/powerinfer-2

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

蚂蚁集团：2023 年研发投入 211.9 亿元

蚂蚁集团今日发布《2023年可持续发展报告》，年度研发投入为211.9亿元，聚焦人工智能和数据要素技术等领域。全球共持有授权专利22102件，发明专利占比达95.7%，区块链授权专利数全球排名第一。新增标准立项195项（包括国际标准12项、国家标准35项）。报告指出，2023年，蚂蚁提出AI First的战略方向，围绕可信智能技术领域和人机融合方向，坚定投入，全年科研经费达到211.9亿元，连续三年保持增长，并保持在民营企业前十位。其自研的“蚂蚁百灵”大模型建立了万卡异构集群的算力、检测和防御一体化的安全能力以及万亿级Token语料的知识能力，并通过国家备案。蚂蚁大模型坚持面向产业、全栈布局，当下重点破局三个应用，分别是生活管家“支付宝智能助理”、就医助理“安诊儿”和金融管家“支小宝”。 “在科技创新的征程上，开放开源是我们的基本原则。我们重视科技生态的建设，一枝独秀不是春。我们已与国内外9所名校共建16家联合实验室，蚂蚁开源累计沉淀超过1,900个开源仓库。面向未来，蚂蚁将以更大力度投入科技创新，聚焦人工智能和数据要素技术，将服务实体经济作为科技创新的落脚点，为社会创造更大价值。...

2024-06-13

358

本文分享自华为云社区《基于Ascend C的FlashAttention算子性能优化最佳实践》，作者：昇腾CANN。 LLM的Attention部分处理给计算系统带来巨大的计算和访存压力。业界先后出现FlashAttention、FlashAttention2等算法，通过计算等价和切分有效降低HBM数据访问量。昇腾异构计算架构CANN针对昇腾AI处理器的片上内存和缓存大小，以及数据搬运通路，基于Ascend C算子编程语言优化实现FlashAttention融合算子，充分利用片上缓存，提升Attention处理性能。根据实测，在一些典型场景中CANN的FlashAttention算子相比小算子取得了5倍以上的性能提升，开发者可直接调用相关算子API接口使能大模型极致性能优化。本文针对FlashAttention反向融合算子的性能优化方案展开介绍，并通过优化实现了典型场景4倍左右的性能提升，希望对开发者优化此类基于Ascend C开发的融合算子带来启发。 FlashAttention算法简介在主流大模型网络模型中，大量使用典型的Multi-Head Attention结构，带来了巨...

2024-06-12

452

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。