Omni-Infer v0.2.0 已经发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.2.0 已经发布,超大规模 MoE 模型推理加速技术 此版本更新内容包括: v0.2.0 核心特性 支持vllm 0.8.3 release 其他优化 基于18P8-1D144@A3,Deepseek R1单卡Decode性能达到1920 TPS,TPOT<50ms 支持模型列表 模型 部署形态 DeepSeek-R1 PD分离 Qwen2.5系列 混布(TP>=1 DP=1) 详情查看:https://gitee.com/omniai/omniinfer/releases/v0.2.0