Omni-Infer v0.1.0 已经发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.1.0 已经发布,超大规模 MoE 模型推理加速技术
此版本更新内容包括:
v0.1.0
这是我们的第一个正式开源版本
核心特性
- PD分离
- MTP
- 入图
- 图缓存
- omni-attention
- omni-placement(静态)
其他优化
- Tokenizer进程池化
- Schuduer异步调度
- PD分离多API Server架构
- 昇腾亲和通信优化
支持模型列表
| 模型 | 部署形态 |
|---|---|
| DeepSeek-R1 | PD分离 |
| Qwen2.5系列 | 混布(TP>=1 DP=1) |