LM Studio 与苹果合作，用四台 Mac Studio 成功运行万亿参数大模型 Kimi K2.6-低调大师

LM Studio 与苹果合作，用四台 Mac Studio 成功运行万亿参数大模型 Kimi K2.6

2026-06-22 7

LM Studio 官方账号近日发布了一条推文："我们在 WWDC 期间与 Apple 合作，在四台 Mac Studio 组成的集群上运行了 Kimi K2.6——一个万亿参数模型。我们通过 LM Link 展示了从 MacBook Neo 和 iPhone 的安全远程访问。这是你私人拥有的、前沿级 AI 的一瞥。"

要理解这次演示的技术含量，必须先厘清"万亿参数模型"对算力的真实需求。Kimi K2.6 是月之暗面（Moonshot AI）推出的旗舰模型，采用 MoE（混合专家）架构，总参数量达到一万亿，每次推理激活约 320 亿参数。在 MoE 架构中，并非所有参数都在每次推理中参与计算——模型根据输入内容动态选取最相关的"专家模块"进行计算，这使得万亿参数模型的实际推理计算量远小于同等规模的稠密模型。但即便如此，模型的完整权重仍需全部加载到内存中。以 FP16 精度计算，仅加载全部参数就需要约 2TB 的显存/内存空间。这恰恰是云端部署的隐形门槛：单张 H200 GPU 拥有 141GB 显存，要完整加载一个万亿参数的 MoE 模型，即便采用量化压缩，也至少需要 8 到 16 张 GPU 组成服务器集群，总投资在百万美元级别。

Apple 和 LM Studio 的方案走了完全不同的路径。四台顶配 Mac Studio——每台搭载 M3 Ultra 芯片和 512GB 统一内存，通过 Thunderbolt 5 互联构成一个计算集群。Apple 的统一内存架构（Unified Memory Architecture）在这套方案中发挥了核心作用：与传统的 CPU 和 GPU 各自拥有独立显存不同，Apple Silicon 的 CPU、GPU 和神经引擎共享同一块物理内存池。macOS Tahoe 26.2 引入的 RDMA-over-Thunderbolt 技术则进一步打破了设备间的内存壁垒，它允许一台 Mac 直接读写另一台 Mac 上的内存，以微秒级延迟实现跨设备的内存共享。四台 Mac Studio 的约 2TB 总统一内存被整合为一个逻辑上的超大内存池，足以容纳 Kimi K2.6 的全部模型权重。在 WWDC 特别讲座的现场演示中，这套集群在特定推理模式下达到了约 28 tokens/s 的生成速度，而总功耗仅为传统企业级 GPU 集群的一小部分。

LM Link 是这套方案的另一个关键组件。它的技术架构基于 Tailscale Mesh VPN，在设备间建立端到端加密的点对点通道，加密算法采用 ChaCha20-Poly1305 和 Curve25519 密钥交换。与传统的"本地推理"意味着你必须坐在主机面前的想象不同，LM Link 允许用户从任何网络位置——从同一个房间里的 MacBook Neo，到千里之外咖啡厅里的 iPhone——安全地连接回 Mac Studio 集群，发起推理请求并获取结果。所有模型推理计算仍在 Mac Studio 集群本地完成，敏感数据不会经过任何第三方服务器。LM Studio 团队在 2026 年 6 月初刚完成了 LM Link 的版本迭代，正式支持 Mac 和 iOS 平台。

这次演示的行业意义超出了 LM Studio 本身。Apple 选择在 WWDC 最重要的 AI 特别讲座上展示这一合作，传递了一个清晰的信号：Apple Silicon 的统一内存架构和多设备互联能力，正在成为 Apple 在 AI 时代的差异化竞争壁垒。与 NVIDIA 依赖独立 GPU 显存和昂贵的 NVLink 互联的生态路径不同，Apple 的方案天然地将大容量统一内存与低延迟设备间通信结合在一起，这些能力最初是为视频剪辑、3D 渲染等创意工作流设计的，但在大模型推理的时代获得了全新的战略价值。对于一个每年出货数千万台 Apple Silicon 设备的生态而言，即便只有极小比例的用户利用这些能力进行本地 AI 部署，也将累积为一个可观的去中心化算力网络。

当然，清醒地看，四台顶配 Mac Studio 的硬件成本约在 4 至 5 万美元之间，考虑到 M3 Ultra 芯片的高端定位和 512GB 统一内存配置的稀缺性，这套方案目前并不完全"亲民"。但关键不在于绝对成本，而在于成本结构的变化：传统 GPU 集群方案是一次性资本支出加上持续的电力、冷却和运维费用；而 Mac Studio 集群的运行功耗极低，不需要专门的数据中心制冷条件，不产生月度云服务账单。对于需要长期、高频运行大模型推理的业务场景，如企业的代码审查助手、隐私敏感的医疗数据处理、法律文书分析等——这种"买断制"的硬件方案在 18 到 24 个月的使用周期内，总拥有成本可能显著低于等量的云端 GPU 实例。

LM Studio 的演示还有一个容易被忽视的细节：它从根本上改变了"部署前沿模型"这件事的组织门槛。过去，在本地跑一个真正先进的大模型意味着你需要组建一个小型 IT 团队——采购 GPU 服务器、配置网络、管理 CUDA 版本、调试分布式推理的通信瓶颈。而 LM Studio + Mac Studio 的方案将这一切压缩为一个消费者级产品：安装一个应用，几台 Mac 互相发现，模型下载，开始推理。这种"消费品化"的技术平权，可能比任何单项性能指标的提升都更为重要。

当一个独立开发者或者小型创业团队能负担得起并且操作得起前沿 AI 时，创新的来源就不再局限于拥有超算中心的少数科技巨头。

参考来源：

微信关注我们

原文链接：https://www.oschina.net/news/464871

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

从代码到产线：恩和发布 BPL 协议语言，定义生物制造的“工业级编译器”

近日，恩和科技在《bioRxiv》发布Biology Protocol Language（BPL）及其生成管线BPL-COGEN，首次为生物实验协议建立了一套形式化的语言体系，打通了Physical AI进入物理世界的标准接口。 BPL是专为生物实验协议设计的可编译、可验证的形式化语言。BPL-COGEN把自然语言协议自动翻译为BPL程序，由一个300亿参数微调大语言模型与确定性编译器构成“生成—验证—修复”闭环。在基于300篇《Nature Protocols》论文的基准测试中，BPL-COGEN实现95.1%的首轮一致性，通过2轮编译-仿真...

2026-06-22

6

2026 年 6 月 17 日，Canonical 工程总监 Jean-Baptiste Lallement 在 Ubuntu 社区论坛正式公布了 Project Myna，旨在为 Ubuntu 桌面带来系统级的本地 AI 语音转文本功能。 Myna 得名于擅长模仿人类说话的八哥鸟（Myna bird），这个意象本身就暗示了项目的本质：不是理解语言，而是忠实地将语音复制为文字。项目的初始定位非常克制——一个纯粹的桌面听写工具，用户按下键盘快捷键开始说话，松开后转录的文字直接出现在当前应用程序的光标位置。整个过程就像使用系统自带的原生功能一样自然，不需要打开独立应用窗口，...

2026-06-22

7

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。