您现在的位置是:首页 > 文章详情

开源跨平台大模型工具 Ollama 发布 0.11.9-rc0 测试版

日期:2025-09-03点击:9

ollama 团队近日发布了 0.11.9-rc0 测试版,重点提升了 CPU/GPU 并行性能。此次更新引入了新的执行机制,让 GPU 在处理当前批次任务的同时,CPU 可以并行准备下一批计算,从而减少 GPU 空闲等待时间,旨在提升其在多平台运行 AI 大语言模型时的整体性能。

在实测中,macOS Metal 环境下 token 处理速度提升约 2–3%,而在 GeForce RTX 4090 上提升幅度约 7%。

此外,新版本还修复了 AMD GPU 无法识别的问题,并解决了 macOS 与 Linux 上因未处理错误导致的部分崩溃情况,进一步提升了跨平台稳定性与兼容性。这意味着 ollama 在运行大语言模型时将具备更高的效率和更稳定的表现。

关键性能优化

  • 引入一种新的执行方式:通过在后台并行构建下一批次的计算图,将 GPU 与 CPU 的计算任务重叠执行。这能有效减少 GPU 等待下一批任务所造成的空闲时间,提升吞吐效率。

  • 该改动由 VMware 工程师 Daniel Hiltgen 提出,他在 Pull Request 中指出:

    “这重构了 ollama 主运行循环,将主要 GPU 密集任务(Compute+Floats)放在 Go 协程中执行,从而可以并行准备下一批任务,减少 GPU 在等待时的停顿。”
    “在 metal(macOS 上)测试中,token 处理速度提升约 2–3%;在单块 GeForce RTX 4090 上,速度提升约 7%。”

其他改进与修复

  • 修复了部分 AMD GPU 无法识别时出现的错误,增强了对 AMD 硬件的兼容性。

  • 修补了一些 在 macOS 和 Linux 上因未处理错误而导致的崩溃问题,提升稳定性。

下载地址:https://github.com/ollama/ollama/releases/tag/v0.11.9-rc0

原文链接:https://www.oschina.net/news/370006
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章