Omni-Infer v0.4.1 已经发布,超大规模 MoE 模型推理加速技术
Omni-Infer v0.4.1 已经发布,超大规模 MoE 模型推理加速技术
此版本更新内容包括:
v0.4.1
核心特性
- 稳定性压测与优化
支持模型列表
模型 | 硬件 | 精度类型 | 部署形态 |
---|---|---|---|
DeepSeek-R1 | A3 | INT8 | PD分离 |
DeepSeek-R1 | A3 | W4A8C16 | PD分离 |
DeepSeek-R1 | A3 | BF16 | PD分离 |
DeepSeek-R1 | A2 | INT8 | PD分离 |
Qwen2.5-7B | A3 | INT8 | 混布(TP>=1 DP=1) |
Qwen2.5-7B | A2 | INT8 | 混布(TP>=1 DP=1) |
QwQ | A3 | BF16 | PD分离 |
Qwen3-235B | A3 | INT8 | PD分离 |
Kimi-K2 | A3 | W4A8C16 | PD分离 |
安装包
硬件 | 架构 | 镜像文件 | Tar包 |
---|---|---|---|
A3 | arm | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a3-arm:release_v0.4.1 | omni_infer-a3-arm:v0.4.1 |
A3 | x86 | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a3-x86:release_v0.4.1 | omni_infer-a3-x86:v0.4.1 |
A2 | arm | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a2-arm:release_v0.4.1 | omni_infer-a2-arm:v0.4.1 |
A2 | x86 | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a2-x86:release_v0.4.1 | omni_infer-a2-x86:v0.4.1 |

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Solon AI v3.4.5 发布,面向全场景的 Java AI 应用开发框架
Solon AI v3.4.5 已经发布,面向全场景的 Java AI 应用开发框架 此版本更新内容包括: 优化 solon-ai-core chatModel.stream 与背压处理的兼容性 调整 solon-ai-map getPrompt,readResource,callTool 取消自动异常转换(侧重原始返回) 调整 solon-ai-map callTool 错误结果传递,自动添加 'Error:' (方便 llm 识别) 修复 solon-ai-mcp callTool isError=true 时,不能正常与 llm 交互的问题 详情查看:https://gitee.com/opensolon/solon-ai/releases/v3.4.5
-
下一篇
Gradle 9.1.0 发布
Gradle9.1.0 现已发布。Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化构建工具,支持依赖管理和多项目,类似Maven,但比之简单轻便。它使用一种基于Groovy的特定领域语言来声明项目设置,而不是传统的XML。 版本亮点内容如下: 全面支持 Java 25 原生任务图可视化 增强控制台输出 此版本引入了可视化任务图和检查项目结构的新方法。Kotlin 项目的构建初始化现在使用 kotlin-test 依赖项,以便更灵活地选择测试框架。控制台增强功能和更清晰的版本冲突错误消息提升了命令行可用性。 Gradle 9.1.0 引入了对配置缓存的增强,这是一种针对 CI 工作流优化的新只读模式,当命令行属性发生变化时可以更智能地重用缓存条目,并且与自定义 JVM 安全策略的兼容性更好。 此版本还包含多个build authoring 改进、对Antlr、EAR和Publishing 插件的增强以及使用--dry-run的复合构建的修复。 更多详情可查看:https://docs.gradle.org/9.1.0/release-notes.htm...
相关文章
文章评论
共有0条评论来说两句吧...