OpenBMB 发布 MiniCPM4 系列模型，专为端侧设备优化-低调大师

OpenBMB 发布 MiniCPM4 系列模型，专为端侧设备优化

2025-06-09 112

OpenBMB 发布了 MiniCPM4 系列高效大语言模型，该系列专为端侧设备设计，通过在模型架构、训练数据、训练算法和推理系统四个维度的系统性创新，实现了效率的提升。

MiniCPM4 系列包括多个模型，具体如下：

模型名称	主要特点/用途
`MiniCPM4-8B`	旗舰模型，`80亿`参数，`8T` token训练
`MiniCPM4-0.5B`	小型版，`5亿`参数，`1T` token训练
`MiniCPM4-8B-Eagle-FRSpec`	`MiniCPM4-8B` 推理加速 Eagle head 模型
`MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu`	`MiniCPM4-8B` 推理加速 Eagle head 模型 (QAT)
`MiniCPM4-8B-Eagle-vLLM`	`MiniCPM4-8B` 推理加速 Eagle head 模型 (vLLM)
`MiniCPM4-8B-marlin-Eagle-vLLM`	`MiniCPM4-8B` 推理加速 Eagle head 模型 (marlin, vLLM)
`BitCPM4-0.5B`	极端三元量化模型，参数压缩至三元值，实现90%位宽缩减
`BitCPM4-1B`	极端三元量化模型
`MiniCPM4-Survey`	基于 `MiniCPM4-8B`，用于生成综述论文
`MiniCPM4-MCP`	基于 `MiniCPM4-8B`，用于调用MCP工具

该系列模型的关键技术特性包括：

采用可训练稀疏注意力机制 InfLLM v2，在处理 128K 长文本时每个token仅需与少于 5% 的token计算相关性；
通过模型风洞2.0 实现高效可预测扩展；
使用 BitCPM 进行极端三元量化；
采用 FP8低精度计算和多token预测训练策略。
数据方面，通过 UltraClean流程过滤和生成高质量预训练数据（开源了 UltraFinweb数据集），并使用 UltraChat v2 生成高质量监督微调数据。
推理系统方面，推出了集成稀疏注意力、模型量化和推测采样技术的CUDA推理框架 CPM.cu，以及支持跨平台部署的 ArkInfer系统。

MiniCPM4 原生支持高达 32768 token的上下文长度，并可通过 LongRoPE技术扩展至 131072 token。在 Jetson AGX Orin 和 RTX 4090 等端侧芯片上，MiniCPM4 在长文本处理任务中展现出比同规模模型更快的处理速度，例如在 Jetson AGX Orin 上，其解码速度相较 Qwen3-8B 提升约 7倍。

用户可以通过 CPM.cu、Hugging Face Transformers、SGLang 或 vLLM 进行模型推理：https://huggingface.co/openbmb/MiniCPM4-8B

微信关注我们

原文链接：https://www.oschina.net/news/354328

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

小红书发布首个开源大模型 dots.llm1

小红书hi lab（Humane Intelligence Lab，人文智能实验室）团队宣布首次开源文本大模型 dots.llm1，一个中等规模的Mixture of Experts (MoE)文本大模型。hi lab团队开源了所有模型和必要的训练信息，包括Instruct模型、长文base模型、退火阶段前后的多个base模型及超参数等内容。 dots.llm1的基本情况：模型参数：总参数量142B、激活参数14B MoE配置：6in128 Expert、2个共享Expert 预训练数据：11.2T token高质量数据，显著优于开源数据训练效率：基于Interleaved 1F1B 流水并行的AlltoAll overlap和高效Grouped GEMM的MoE训练框架在预训练阶段，dots.llm1一共使用了11.2T 高质量token，然后经过两阶段sft训练，得到dots.llm1 base模型和instruct模型，在综合指标上打平Qwen2.5 72B模型，具体指标对照情况如下：关于dots.llm1开源，hi lab团队声称其做到了迄今为止行业最大力度：开源do...

2025-06-09

124

JakartaOne Livestream是Jakarta EE工作组面向开发人员、技术爱好者的线上会议，旨在促进技术交流和知识分享，探讨Jakarta EE相关技术发展现状及未来趋势。JakartaEE中国社区计划于2025年9月25日举行JakartOne Livestream中文线上会议，现进行讲师招募，欢迎扫码联络。

2025-06-09

85

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。