为 DeepSeek v4 做好准备,至强 6 尝鲜查算分离,用 AMX 加速 Engram
近期大模型领域里最火的热词,或者说技术创新点,非Engram (DeepSeek最新论文里设计的Engram机制) 莫属。今天我们想分享的,是英特尔围绕Engram开展的早期探索——用至强® 处理器独立运行整个Engram模块,并使用其内置的英特尔® AMX(高级矩阵扩展)技术对其进行加速的初步成果或收获。 我们希望这次分享,或能作为参考,或是作为开端,能为未来Engram以及集成它的大模型的部署和实践,拓展和探明更多可能性及随之而来的潜在应用优势。 Engram设计初衷: 让大模型走向“查算分离” 让我们先简单回顾Engram的源起,它出现在公众视野,是源自DeepSeek联合北京大学发布的论文《Conditional Memory via Scalable Lookup》。业界对它的评价,是为“破解万物皆推理”模式引发的大模型的记忆困境提供了全新思路。这里提到的记忆困境,指的是宝贵的算力被消耗在本可直接调取的静态知识检索上,这不仅会拖慢响应速度、增加推理成本,还让大模型在复杂任务上的性能...