业界首个!记忆张量携手商汤大装置开启国产 GPGPU 的下一代推理新范式
记忆张量联合商汤大装置宣布,在国产 GPGPU 上率先跑通业内首个以“记忆 - 计算 - 调度”一体化为核心的 PD 分离商用推理集群。相比传统仅依赖硬件隔离的方案,本次落地将 PD 分离与记忆张量旗下核心产品 MemOS 的激活记忆体系深度耦合,使 Prefill 批量化可调度、Decode 前台低抖动成为可能。 集群在真实 C 端负载下实现单卡并发效率提升 20%、吞吐提升 75%,综合推理性价比达到同代 NVIDIAA100 的 150%。这一成果标志着国产算力体系在大模型商业化路径上首次具备“体系级”竞争力,为高性能模型的大规模落地打开了全新的降本增效空间。 为什么是 MemOS? 解决大模型长期记忆和 Agent 协作的五大痛点 过去一年中,“PD 分离”几乎成了大模型推理优化里最热的技术关键词之一,但一个被反复忽略的现实是:如果只在算力层面做 PD 分离,而不对上层业务路径重构,能带来的收益是天然有上限的。 Prefill(计算密集)与 Decode(访存密集)在真实生产环境中的比例、触发频率和负载形态取决于业务本身——是长对话还是短问答,是高并发 C 端应用还是低频 B ...



