M2 Ultra 可并行运行 128 个 Llama2-7B 流-低调大师

M2 Ultra 可并行运行 128 个 Llama2-7B 流

2023-10-13 557

llama.cpp 是开发者 Georgi Gerganov 用纯 C/C++ 代码实现的 LLaMA 模型推理开源项目。所谓推理，即是「给输入-跑模型-得输出」的模型运行过程。

最近 Georgi Gerganov 用搭载苹果 M2 Ultra 处理器的设备运行了一系列测试，其中包括并行运行 128 个 Llama 2 7B 流。

具体结果如下：

via https://github.com/ggerganov/llama.cpp/pull/3228

对于 M2 Ultra 的这番表现，有人给出了解释，M2 Ultra 或 M1 和 M2 系列 CPU 的速度之所以如此快，是因为执行推理任务的主要瓶颈是内存带宽，而不是计算能力。

而 M2 Ultra 的带宽为 800 GB/s，是普通现代台式机 CPU（双通道 DDR4-6400 带宽为 102 GB/s）的 8 倍。

如此高的带宽是苹果为 M1 和 M2 芯片设计了统一内存架构的结果。通常在笔记本电脑或台式机上，CPU 和 GPU 拥有不同的内存系统：高带宽（但容量相对较低）的显存和相对低带宽（但容量较高）的 CPU 内存。

苹果公司简化了这种方案，转而采用 CPU 和 GPU 共享的单一高带宽内存系统。这样做的唯一缺点是，这种高带宽内存必须紧密集成在 M2 封装中，因此最大容量受到限制。

例如，无论你花费 5,600 美元（最便宜的 Mac Studio 机型，配备 M2 Utra 和 192 GB 内存），还是 10,000 美元以上（最顶配 Mac Pro），都只能获得最大 192 GB 内存。但另一方面，如果你的工作负载（如推理）不需要超过 192 GB 的内存，那就再好不过了。

如此看来，苹果在这方面做出了正确的权衡。通常来说，在通用 CPU 的单插槽上实现 800 GB/s 的内存带宽，这在以前从未实现过。

微信关注我们

原文链接：https://www.oschina.net/news/261626

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenNJet 版本更新到 1.2.2 🎉

OpenNJet 版本 1.2.2 现已发布，具体更新内容包括： ☘️该版本增加了基于cpu使用率动态调整worker数量、支持Proxy protocol V2协议、设置TLV 字段值等功能； 📒参考资料：降本必备实践：智能资源管理. NJet支持维护Proxy_protocol V2了 ☘️ 修复配置主动健康检查后，reload会导致进程core、upstream 轮询算法bug、sticky_learn 超时删除，core、动态Map配置，在worker数大于1及重加载时导致进程core的问题等bug； 👉了解详情

2023-10-13

380

英国竞争与市场管理局（CMA）正式宣布，批准微软收购动视暴雪的交易，从而为这笔交易扫除了最后一个主要全球监管障碍。交易完成后，微软将成为世界上营收第三高的游戏公司，仅次于腾讯和索尼。这一结果源于今年 8 月份微软为完成交易所做出的一项让步：即，由育碧取代微软购买动视的云流媒体版权。育碧将获得动视未来 15 年内所有 PC 和游戏机游戏的云流媒体版权，但这仅适用于欧洲经济区 (EEA) 以外的市场。在欧洲经济区内，育碧将获得“销售、分销和转授动视游戏云流媒体版本的非独家许可。” 这意味着微软也将能够在欧洲获得动视游戏的云流媒体播放权。一直以来，CMA 都是该收购案最坚定的反对者。公告称，微软的这一让步解决了 CMA 有关市场垄断的担忧，从而同意重新审视该交易，并于 8 月启动了新的调查。在调查完成后，CMA 则宣布批准了该交易。 CMA 首席执行官 Sarah Cardell 表示：“通过将动视暴雪的云流媒体版权出售给育碧，我们确保微软无法垄断这个重要且快速发展的市场。随着云游戏的发展，这种干预将确保人们获得更具竞争力的价格、更好的服务和更多的选择。我们是全球唯一一家取得这一成果的竞...

2023-10-13

364

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。