Omni-Infer v0.7.0 已经发布，超大规模 MoE 模型推理加速技术

2025-12-10 28

Omni-Infer v0.7.0 已经发布，超大规模 MoE 模型推理加速技术。

v0.7.0

核心特性

Omni Cache支持MLA/GQA
chunk prefill混部入图
支持SGLang

其它优化

基于2P8-1D32@A3，平均3.5K+1K，Deepseek R1性能达到QPM186，TTFT<2s，TPOT<20ms
基于2P2-1D4@A3，2K+2K，openPangu-72B单卡Decode峰值性能达到1560 TPS，TPOT<30ms

支持模型列表

模型	硬件	精度类型	部署形态
openPangu-Ultra-MoE-718B	A3	INT8	PD分离
openPangu-Ultra-MoE-718B	A2	INT8	PD分离
openPangu-72B	A3	INT8	PD分离
openPangu-38B	A3	INT8	混布
openPangu-38B	A2	INT8	混布
openPangu-7B	A3	BF16	混布
openPangu-7B	A2	BF16	混布
openPangu-7BVL	A3	BF16	混布
DeepSeek-R1	A3	INT8	PD分离
DeepSeek-R1	A3	W4A8C16	PD分离
DeepSeek-R1	A3	BF16	PD分离
DeepSeek-R1	A2	INT8	PD分离
DeepSeek-V3.1	A3	INT8	PD分离
DeepSeek-V3.2	A3	INT8	PD分离
DeepSeek-OCR	A2	BF16	混布
Qwen2.5-7B	A3	INT8	混布（TP>=1 DP=1）
Qwen2.5-7B	A2	INT8	混布（TP>=1 DP=1）
QwQ	A3	BF16	PD分离
QwQ	A2	BF16	PD分离
Qwen3-235B	A3	INT8	PD分离
Qwen3-235B	A2	BF16	PD分离
Qwen3-32B	A3	BF16	PD分离
Qwen3-32B	A3	INT8	PD分离
Qwen3-30B	A3	BF16	PD分离
Kimi-K2	A3	W4A8C16	PD分离
Kimi-K2 Thinking	A3	W4A8C16	PD分离
Longcat-flash	A3	BF16	PD分离
Ling-1T	A3	BF16	PD分离
GPT-OSS120B	A3	INT8	PD分离
GPT-OSS120B	A2	INT8	PD分离
GPT-OSS20B	A3	INT8	PD分离
GPT-OSS20B	A2	INT8	PD分离

安装包

硬件	架构	镜像文件	Tar包
A3	arm	docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-arm:release_v0.7.0-vllm	omni_infer-a3-arm:v0.7.0_vllm
A3	x86	docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-x86:release_v0.7.0-vllm	omni_infer-a3-x86:v0.7.0_vllm
A2	arm	docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-arm:release_v0.7.0-vllm	omni_infer-a2-arm:v0.7.0_vllm
A2	x86	docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-x86:release_v0.7.0-vllm	omni_infer-a2-x86:v0.7.0_vllm

详情查看：https://gitee.com/omniai/omniinfer/releases/v0.7.0

微信关注我们

原文链接：https://www.oschina.net/news/389066

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Snow-IntelliJ v1.2.0 发布：文档注释、结构视图与缩进格式化增强

版本更新重构与优化文档注释与格式化体系重构统一行注释 // 与块注释 /* ... */ 的前缀定义，修正原先误用 /** 作为普通块注释的配置，清晰区分普通块注释与文档注释。将文档注释处理链路从 preFormatProcessor 迁移到 PostFormatProcessor，新增 SnowDocCommentPostFormatter，在格式化完成后统一规范 /** ... */ 文档注释的缩进与星号对齐。使用 CodeStyleManager 精确计算 Doc 注释行的目标缩进；在源代码未缩进或缩进混乱时，自动对齐首行 /** 与内部 * 行，保证注释块内外缩进风格一致。在文档注释格式化前后显式同步 Document 与 PSI，修复模型不同步导致的异常、光标跳动或格式丢失问题，显著提升格式化稳定性。基于官方编译器的缩进与分词逻辑优化引入 BlockKind 枚举与 SnowAstIndentCalculator，通过官方 SnowCompilerFacade AST 计算缩进层级，使缩进结果与编译器语义保持一致。设计 SnowIndentSnapshot ...

2025-12-10

36

玲珑应用商店极速版 1.1.5 已经发布。此版本更新内容包括： feat: 实现卡片展开的优雅动画, 而非简单的页面切换, fix: 手动指定卡片展开的动画效果与时间 fix: 完整清除定时器试图修复偶发性应用管理页面关闭时无响应的问题 fix: 微调优化代码详情查看：https://gitee.com/LFRon/Linyaps-Store-Minimalist/releases/1.1.5

2025-12-10

28

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。