您现在的位置是:首页 > 文章详情

OpenBMB 发布 MiniCPM4 系列模型,专为端侧设备优化

日期:2025-06-09点击:12

OpenBMB 发布了 MiniCPM4 系列高效大语言模型,该系列专为端侧设备设计,通过在模型架构、训练数据、训练算法和推理系统四个维度的系统性创新,实现了效率的提升。

MiniCPM4 系列包括多个模型,具体如下:

模型名称

主要特点/用途

MiniCPM4-8B

旗舰模型,80亿参数,8T token训练

MiniCPM4-0.5B

小型版,5亿参数,1T token训练

MiniCPM4-8B-Eagle-FRSpec MiniCPM4-8B

 推理加速 Eagle head 模型

MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu MiniCPM4-8B

 推理加速 Eagle head 模型 (QAT)

MiniCPM4-8B-Eagle-vLLM MiniCPM4-8B

 推理加速 Eagle head 模型 (vLLM)

MiniCPM4-8B-marlin-Eagle-vLLM MiniCPM4-8B

 推理加速 Eagle head 模型 (marlin, vLLM)

BitCPM4-0.5B

极端三元量化模型,参数压缩至三元值,实现90%位宽缩减

BitCPM4-1B

极端三元量化模型

MiniCPM4-Survey

基于 MiniCPM4-8B,用于生成综述论文

MiniCPM4-MCP

基于 MiniCPM4-8B,用于调用MCP工具

该系列模型的关键技术特性包括:

  • 采用可训练稀疏注意力机制 InfLLM v2,在处理 128K 长文本时每个token仅需与少于 5% 的token计算相关性;
  • 通过 模型风洞2.0 实现高效可预测扩展;
  • 使用 BitCPM 进行极端三元量化;
  • 采用 FP8低精度计算 和多token预测训练策略。
  • 数据方面,通过 UltraClean流程 过滤和生成高质量预训练数据(开源了 UltraFinweb数据集),并使用 UltraChat v2 生成高质量监督微调数据。
  • 推理系统方面,推出了集成稀疏注意力、模型量化和推测采样技术的CUDA推理框架 CPM.cu,以及支持跨平台部署的 ArkInfer系统。

MiniCPM4 原生支持高达 32768 token的上下文长度,并可通过 LongRoPE技术 扩展至 131072 token。在 Jetson AGX Orin 和 RTX 4090 等端侧芯片上,MiniCPM4 在长文本处理任务中展现出比同规模模型更快的处理速度,例如在 Jetson AGX Orin 上,其解码速度相较 Qwen3-8B 提升约 7倍。

用户可以通过 CPM.cu、Hugging Face Transformers、SGLang 或 vLLM 进行模型推理:https://huggingface.co/openbmb/MiniCPM4-8B

原文链接:https://www.oschina.net/news/354328
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章