开源跨平台大模型工具 Ollama 发布 0.11.9-rc0 测试版
ollama 团队近日发布了 0.11.9-rc0 测试版,重点提升了 CPU/GPU 并行性能。此次更新引入了新的执行机制,让 GPU 在处理当前批次任务的同时,CPU 可以并行准备下一批计算,从而减少 GPU 空闲等待时间,旨在提升其在多平台运行 AI 大语言模型时的整体性能。 在实测中,macOS Metal 环境下 token 处理速度提升约 2–3%,而在 GeForce RTX 4090 上提升幅度约 7%。 此外,新版本还修复了 AMD GPU 无法识别的问题,并解决了 macOS 与 Linux 上因未处理错误导致的部分崩溃情况,进一步提升了跨平台稳定性与兼容性。这意味着 ollama 在运行大语言模型时将具备更高的效率和更稳定的表现。 关键性能优化 引入一种新的执行方式:通过在后台并行构建下一批次的计算图,将 GPU 与 CPU 的计算任务重叠执行。这能有效减少 GPU 等待下一批任务所造成的空闲时间,提升吞吐效率。 该改动由 VMware 工程师 Daniel Hiltgen 提出,他在 Pull Request 中指出: “这重构了 ollama 主运行循环,将主...