Omni-Infer v0.5.0 发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.5.0 已经发布,超大规模 MoE 模型推理加速技术。
v0.5.0
核心特性
- 支持VeRL
其它优化
- 基于5P8-1D32@A3,2K+2K,Deepseek R1性能达到QPM500,TTFT<2s,TPOT<50ms
- 基于1P16-1D32@A2,2K+2K,Deepseek R1单卡Decode峰值性能达到400 TPS,TPOT<50ms
支持模型列表
模型 | 硬件 | 精度类型 | 部署形态 |
---|---|---|---|
DeepSeek-R1 | A3 | INT8 | PD分离 |
DeepSeek-R1 | A3 | W4A8C16 | PD分离 |
DeepSeek-R1 | A3 | BF16 | PD分离 |
DeepSeek-R1 | A2 | INT8 | PD分离 |
Qwen2.5-7B | A3 | INT8 | 混布(TP>=1 DP=1) |
Qwen2.5-7B | A2 | INT8 | 混布(TP>=1 DP=1) |
QwQ | A3 | BF16 | PD分离 |
Qwen3-32B | A3 | BF16 | PD分离 |
Qwen3-235B | A3 | INT8 | PD分离 |
Kimi-K2 | A3 | W4A8C16 | PD分离 |
安装包
硬件 | 架构 | 镜像文件 | Tar包 |
---|---|---|---|
A3 | arm | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a3-arm:release_v0.5.0 | omni_infer-a3-arm:v0.5.0 |
A3 | x86 | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a3-x86:release_v0.5.0 | omni_infer-a3-x86:v0.5.0 |
A2 | arm | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a2-arm:release_v0.5.0 | omni_infer-a2-arm:v0.5.0 |
A2 | x86 | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a2-x86:release_v0.5.0 | omni_infer-a2-x86:v0.5.0 |

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Gradle 9.1.0 发布
Gradle9.1.0 现已发布。Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化构建工具,支持依赖管理和多项目,类似Maven,但比之简单轻便。它使用一种基于Groovy的特定领域语言来声明项目设置,而不是传统的XML。 版本亮点内容如下: 全面支持 Java 25 原生任务图可视化 增强控制台输出 此版本引入了可视化任务图和检查项目结构的新方法。Kotlin 项目的构建初始化现在使用 kotlin-test 依赖项,以便更灵活地选择测试框架。控制台增强功能和更清晰的版本冲突错误消息提升了命令行可用性。 Gradle 9.1.0 引入了对配置缓存的增强,这是一种针对 CI 工作流优化的新只读模式,当命令行属性发生变化时可以更智能地重用缓存条目,并且与自定义 JVM 安全策略的兼容性更好。 此版本还包含多个build authoring 改进、对Antlr、EAR和Publishing 插件的增强以及使用--dry-run的复合构建的修复。 更多详情可查看:https://docs.gradle.org/9.1.0/release-notes.htm...
-
下一篇
蓝鲸云 LanJing-Nacos-NaiveVue 微服务框架 v1.0.0 发布
v1.0.0 更新内容: 1、全新升级 JDK17; 2、全新设计软件架构; 项目介绍 基于SpringCloud、SpringSecurity、OAuth2、Nacos、Seata、MybatisPlus、Vue3、TypeScript、NaiveUI、MySQL等技术栈实现的单体前后端分离后台管理系统;后端基于Java语言采用SpringCloud、SpringBoot3、SpringSecurity、OAuth2、Nacos、Seata、MybatisPlus、MySQL等主流技术栈,前端基于Vue3、TypeScript、Vite等技术栈实现,采用NaiveUI前端UI框架,基于目前Vue前后端分离主流设计思想,为了实现精细化分工,模块化、组件化开发模式,目前采用完全前后端分离架构实现,前端应用通过API调用后端服务的方式实现数据交互;整套系统拥有完善的RBAC权限架构体系,权限颗粒度精细至按钮级别,支持多主题切换模式,多端兼容手机客户端、PAD平板、PC电脑等终端设备,提升了用户使用体验;同时为了简化开发,本身集成了基础模块,如用户模块、角色模块、菜单模块、部门模块、岗位模块...
相关文章
文章评论
共有0条评论来说两句吧...