腾讯云开源 DeepSeek 量化部署方案:性能最高提升 3.9X
腾讯云联合小红书Hilab Infra团队,在SGLang 中实现了DeepSeek量化模型的高效推理优化,并在HuggingFace中发布了DeepSeek-V3.1-Terminus的量化模型。 量化方案介绍 当前主流的大语言模型普遍采用MoE架构,这种架构可以在减少训推成本的同时提升模型性能,与此同时,模型体积也变得越来越大。比如,DeepSeek系列为671B,Kimi K2达到了 1TB,而当前主流的GPU单卡显存只有 80GB/96GB,通常需要双机分布式部署。 模型量化是提升推理效率、降低推理成本的主流方式,它是指在保持模型精度尽量不变的前提下,将模型使用的**高精度数值(如 FP32/BF16 浮点数)转换为低精度数值(如 FP8、INT8、INT4 甚至更低比特)**的过程,从而减少了大模型内存占用、提升了推理性能。 当前针对MoE模型,社区普遍使用W4AFP8 混合量化方案,这种量化方案的特点在于: 对权重(Weight)采用INT4 量化,对激活(Activation)采用FP8 动态量化; 只对普通专家权重使用INT4量化,而对其他线性层保留DeepSeek原生...