大模型千亿参数让 GPU 显存告急,英特尔居然让你试试 CPU
你敢想象:仅一台仅装备了单块24G显存消费级显卡的系统,不但能跑满血671B DeepSeek R1模型,还能带来5并发51 Token/秒的性能(更细节数据见下图),要知道这个性能水准,足以搞定像报告解读或数据分析这类对实时性要求不高的任务了。 这就是英特尔开发的全新异构LLM服务方案流出的最新测试数据,这个方案基于HeteroFlow软件框架,搭配了至强6性能核CPU(配MRDIMM内存,开启AMX加速)作为硬件基座,它的目标就是缓解 “满血”大模型们面临的存力困局。 众所周知:大模型,是乐也“大参数”,痛也“大参数”——满血版动辄千亿级的参数规模,再叠加GPU大佬们在显存容量上的“精准”刀法,总能让你钱包严重失血!如果你就搞一个节点,即便GPU多卡插满,也就是能刚刚装下海量参数,剩余的显存会限制并发性能和上下文的长度。咬咬牙上多个节点,那就只能是……把牙咬碎,因为付出翻倍。 而现在,有了HeteroFlow框架的加持,如果你用的是MoE类大模型,且选择了英特尔的至强6性能核CPU来做机头处理器,那么恭喜你,破局方法来了! 当然这个方法可能会颠覆你“AI让CPU走开”,或者“AI应...

