Omni-Infer v0.4.0 发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.4.0 已经发布,超大规模 MoE 模型推理加速技术。
v0.4.0
核心特性
- 模型脚本重构,消除与框架的耦合,提升模型适配效率和代码可维护性
- 支持xPyD(y<32)
- PD分离场景P&D支持独立TP+DP+EP
- 全局绑核优化
支持模型列表
| 模型 | 硬件 | 精度类型 | 部署形态 |
|---|---|---|---|
| DeepSeek-R1 | A3 | INT8 | PD分离 |
| DeepSeek-V3 | A3 | W4A8C16 | PD分离 |
| DeepSeek-R1 | A3 | BF16 | PD分离 |
| DeepSeek-R1 | A2 | INT8 | PD分离 |
| Qwen2.5-7B | A3 | INT8 | 混布(TP>=1 DP=1) |
| Qwen2.5-7B | A2 | INT8 | 混布(TP>=1 DP=1) |
| QwQ-32B | A3 | BF16 | PD分离 |
| Qwen3-235B | A3 | INT8 | PD分离 |
| Kimi-K2 | A3 | W4A8C16 | PD分离 |