Omni-Infer v0.4.2 已经发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.4.2 已经发布,超大规模 MoE 模型推理加速技术
此版本更新内容包括:
核心特性
- 支持DeepSeek-v3.2-EXP with DSA
- Omni Proxy,高性能PD分离调度
- KV offload,结合host内存的KVM,实现MLA场景KV blocks数增加2个数量级以上,支持长序列和多轮对话
支持模型列表
模型 | 硬件 | 精度类型 | 部署形态 |
---|---|---|---|
支持DeepSeek-v3.2-Exp | A3 | BF16 | PD分离 |
支持DeepSeek-v3.2-Exp | A3 | W8A8C16 | PD分离 |
支持DeepSeek-v3.2-Exp | A3 | Prefill W4A8C16,Decode W8A8C16 | PD分离 |
性能测试
BF16 1P32-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
---|---|---|---|
64K-1K | 2 | 32 | 3.37 |
32K-1K | 6 | 34 | 1.70 |
16K-1K | 8 | 34 | 0.97 |
INT8 2P16-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
---|---|---|---|
128K-1K | 2 | 32 | 7.834 |
64K-1K | 4 | 30 | 3.736 |
32K-1K | 6 | 28 | 1.88 |
16K-1K | 8 | 27 | 0.979 |
Prefill INT4/Decode INT8 4P8-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
---|---|---|---|
64K-1K | 4 | 31 | 6.10 |
32K-1K | 8 | 29 | 3.05 |
16K-1K | 8 | 30 | 1.51 |
安装包
硬件 | 架构 | 镜像文件 | Tar包 |
---|---|---|---|
A3 | arm | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a3-arm:release_v0.4.2 | omni_infer-a3-arm:v0.4.2 |
权重下载
DeepSeek-V3.2-Exp-BF16 DeepSeek-V3.2-Exp-INT8 DeepSeek-V3.2-Exp-INT4
提取码:omniinfer
安装部署
性能测试脚本

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Linux 6.17 正式发布,带来了大量硬件支持与性能优化
Linux Kernel6.17 已正式发布,并将成为未来 Ubuntu 25.10、Fedora 43 等发行版的重要内核基础。 https://lkml.org/lkml/2025/9/28/461 此次更新带来了大量硬件支持与性能优化: Attack Vector Controls — 提升安全性方面的控制机制增强 Intel Panther Lake Xe3 显卡 被宣布为稳定支持(stable),意味着该硬件在内核中的驱动成熟可靠 Intel 图形驱动改进,特别是为 “Project Battlematrix” 的相关支持增强 Raspberry Pi RP1 的主线支持 被纳入(mainline support)——硬件支持更广泛 Intel IPU7 驱动 的加入/优化 EXT4 文件系统的可扩展性改进 各种性能优化和其他系统级优化(如调度、内存、驱动方面的调整) 开发者测试显示,Linux 6.17 运行稳定,并带来一定性能提升。随着该版本发布,Linux 内核进入 6.18 的合并窗口,新一轮功能更新即将展开。
-
下一篇
WoTerm v10.2.10 版本发布
WoTerm 是一款跨平台开源且免费,功能强大的远程管理工具,集成主流远程通讯协议,全面满足您的需求:支持 SSH1/SSH2、FTP/FTPS、SFTP、TELNET、RLOGIN、RDP、VNC、SHELL、串口、TCP、UDP 等多种协议,让您无需切换工具,轻松应对各种远程操作和通讯场景。 如下是最新的更新内容: 增加SFTP/FTP的上传及下载时打开文件夹的方式。 优化SFTP/FTP的过滤输入焦点问题。 优化安装包启动时,管理员启动程序调整为普通用户权限,解决UAC权限导致的文件拖拽失败问题。 优化SSH会话,增加启动时同步打开SFTP助手左边栏。 增加文件拖放至终端时,自动打开SFTP或zmodem上传文件。 以下是个别更新点展示。 官网地址:https://woterm.com 开源地址:https://github.com/aoyiduo/woterm 和https://gitee.com/aoyiduo/woterm
相关文章
文章评论
共有0条评论来说两句吧...