Omni-Infer v0.4.2 已经发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.4.2 已经发布,超大规模 MoE 模型推理加速技术 此版本更新内容包括: 核心特性 支持DeepSeek-v3.2-EXP with DSA Omni Proxy,高性能PD分离调度 KV offload,结合host内存的KVM,实现MLA场景KV blocks数增加2个数量级以上,支持长序列和多轮对话 支持模型列表 模型 硬件 精度类型 部署形态 支持DeepSeek-v3.2-Exp A3 BF16 PD分离 支持DeepSeek-v3.2-Exp A3 W8A8C16 PD分离 支持DeepSeek-v3.2-Exp A3 Prefill W4A8C16,Decode W8A8C16 PD分离 性能测试 BF16 1P32-1D32 单机BS TPOT(ms) 单条请求TTFT(s) 64K-1K 2 32 3.37 32K-1K 6 34 1.70 16K-1K 8 34 0.97 INT8 2P16-1D32 单机BS TPOT(ms) 单条请求TTFT(s) 128K-1K 2 32 7.834 64K-1K 4 30 3.736 32K-1...
