Omni-Infer v0.5.0 已经发布,超大规模 MoE 模型推理加速技术。
v0.5.0
核心特性
其它优化
- 基于5P8-1D32@A3,2K+2K,Deepseek R1性能达到QPM500,TTFT<2s,TPOT<50ms
- 基于1P16-1D32@A2,2K+2K,Deepseek R1单卡Decode峰值性能达到400 TPS,TPOT<50ms
支持模型列表
| 模型 |
硬件 |
精度类型 |
部署形态 |
| DeepSeek-R1 |
A3 |
INT8 |
PD分离 |
| DeepSeek-R1 |
A3 |
W4A8C16 |
PD分离 |
| DeepSeek-R1 |
A3 |
BF16 |
PD分离 |
| DeepSeek-R1 |
A2 |
INT8 |
PD分离 |
| Qwen2.5-7B |
A3 |
INT8 |
混布(TP>=1 DP=1) |
| Qwen2.5-7B |
A2 |
INT8 |
混布(TP>=1 DP=1) |
| QwQ |
A3 |
BF16 |
PD分离 |
| Qwen3-32B |
A3 |
BF16 |
PD分离 |
| Qwen3-235B |
A3 |
INT8 |
PD分离 |
| Kimi-K2 |
A3 |
W4A8C16 |
PD分离 |
安装包
详情查看:https://gitee.com/omniai/omniinfer/releases/v0.5.0