Omni-Infer v0.6.0 已经发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.6.0 已经发布,超大规模 MoE 模型推理加速技术。 v0.6.0 核心特性 Omni Proxy Omni Cache支持DSA Omni Placement支持A2 其它优化 基于7P8-1D32@A3,平均3.5K+1K,Deepseek R1性能达到QPM600,TTFT<2s,TPOT<50ms 基于18P8-1D144@A3,2K+2K,openPangu-718B单卡Decode峰值性能达到2400 TPS,TPOT<50ms 支持模型列表 模型 硬件 精度类型 部署形态 openPangu-Ultra-MoE-718B A3 INT8 PD分离 openPangu-Ultra-MoE-718B A2 INT8 PD分离 openPangu-38B A3 INT8 混布 openPangu-38B A2 INT8 混布 openPangu-7B A3 BF16...