AI 生成优化 Metal 内核,PyTorch 推理速度提升 87%
根据 Gimlet Labs 的最新研究,AI 能够自动生成优化的 Metal 内核,使得 PyTorch 推理速度提升了87%。这一突破性成果不仅提高了性能,还在测试的215个 PyTorch 模块上实现了平均1.87倍的加速,某些工作负载的速度甚至提高了数百倍。
研究人员选取了来自多个顶尖机构的八个 AI 模型,包括 Anthropic、DeepSeek 和 OpenAI,利用这些模型为苹果设备生成优化的 GPU 内核。这一过程无需修改用户代码或使用新的框架,直接在苹果硬件上提升模型性能。
在实验中,研究团队选择了 Mac Studio (搭载 Apple M4Max 芯片) 进行测试,基准设置为 PyTorch 的 eager 模式。实验采用了 KernelBench 数据集中的215个 PyTorch 模块,这些模块被分为三类,涵盖从简单的矩阵乘法到完整的模型架构。
测试过程包括接收输入和 PyTorch 代码,生成 Metal 内核,并评估其正确性。数据显示,随着尝试次数的增加,AI 生成内核的正确性逐步提升。例如,在第五次尝试时,正确实现的比例达到了94%。此外,模型们在生成内核时表现出了跨层级的能力,尽管非推理模型有时也能生成有效内核。
实验结果表明,GPT-5模型在某些任务上实现了4.65倍的速度提升。更令人惊讶的是,o3模型在某些情况下甚至将延迟降低了9000倍。研究还发现,单一模型在某些任务上并不总是表现最好,多个模型的结合能够生成更优的内核。
为了进一步提升性能,研究者尝试引入额外上下文信息,如 CUDA 实现和 gputrace 的性能分析数据,结果显示这种方法在性能加速方面达到了平均1.87倍,相比于普通智能体的1.31倍提升了三倍。
需要注意的是,研究人员强调,这一工作并不是为了展示最终的性能极限,而是为了验证 AI 在内核生成中的可行性,希望通过自动化减少开发人员的负担。整体而言,这项研究标志着 AI 技术在硬件优化领域的一个重要进展。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
微软积极推动 Rust 在 Windows 驱动开发中的应用
微软正在积极推动 Rust 语言在 Windows 驱动开发中的应用。 最新进展显示,开发者已可通过多个 Rust crate 在 Windows 11 上编写 WDM、KMDF 和 UMDF 驱动,并借助 cargo-wdk 工具快速生成模板。然而,目前驱动仍需依赖大量 unsafe 代码与操作系统交互,Rust 的安全优势尚未完全发挥。 微软内部团队正开发“安全 Rust 抽象层”,以减少 unsafe 的使用,并计划让工具链支持 ARM64 架构、自动依赖安装及远程部署测试。Surface 团队也已贡献了基于 Rust 的驱动代码,推动生态完善。 不过,相关工具链和流程仍处早期阶段。微软明确指出,Rust 驱动暂不适合生产环境,提交 Windows 硬件兼容性计划(WHCP)认证的流程也尚未成熟。同时,尽管 GitHub 的 CodeQL 已支持 Rust,但 WHCP 仍未正式认可最新版。
-
下一篇
这款插件让你在开源图像编辑器 GIMP 中体验谷歌 Nano Banana
开发者 Josh Ellithorpe 近日发布Dream Prompter 开源插件,将谷歌最新的 Gemini 2.5 Flash Image Preview 模型(代号 “Nano Banana”)引入 GIMP。 该插件支持用户在 GIMP 内直接通过文字提示生成新图像,或对现有图像进行自然语言编辑,无需切换到外部工具。使用 Dream Prompter 需绑定启用计费的 Google Gemini API key,插件本身已开源并托管在 GitHub。 Ellithorpe 表示,他在 Claude 模型的帮助下快速完成了插件开发。这一集成让 GIMP 用户能够在开源环境中享受与 Adobe 等商业软件类似的 AI 创作体验。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker容器配置,解决镜像无法拉取问题
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- MySQL数据库在高并发下的优化方案
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2配置默认Tomcat设置,开启更多高级功能