面壁智能开源新一代全模态旗舰模型 MiniCPM-o 4.5-低调大师

面壁智能开源新一代全模态旗舰模型 MiniCPM-o 4.5

2026-02-04 90

面壁智能开源了新一代全模态旗舰模型 MiniCPM-o 4.5。作为原生全双工的全模态大模型，MiniCPM-o 4.5 让人机交互再上新台阶——通过「边看、边听、主动说」的全模态能力，让 AI 告别死板的“对讲机”回合制交互，成为行业首个「即时自由对话」的大模型，感知不中断、对话不死板、提醒无需问。同时仅依靠 9B 的小身材，将行业高刷视觉理解、端到端语音对话等最先进的模型能力「All in One」，让 AI 真正开启类人感知与沟通交互的新时代。

MiniCPM-o 4.5 架构介绍

MiniCPM-o 4.5 采用了端到端的全模态架构，并创新的加入了全双工多模态实时流机制、主动交互机制、可配置语音建模设计，造就了 MiniCPM-o 4.5 与人一样自然的交互能力与体验。

端到端全模态架构。各模态的编码器/解码器与大语言模型通过稠密特征以端到端的方式进行紧密连接。这种设计实现了更好的信息流转与控制，有助于在训练过程中充分挖掘和利用丰富的多模态知识。
全双工多模态实时流机制。
- MiniCPM-o 4.5 将离线模态编码器/解码器转化为支持流式输入/输出的在线全双工版本。语音解码器采用文本与语音 token 交错建模的方式，支持全双工语音生成（即与新输入实时同步），同时也提升了长语音（如超过 1 分钟）生成的稳定性。
- 时分复用： MiniCPM-o 4.5 在毫秒级时间线上同步所有输入和输出流，并利用时分复用机制在语言模型主干中进行统一建模。该机制将并行的全模态流划分为微小周期性时间片内的顺序信息组，从而实现高效的全模态流式处理。
主动交互机制。语言模型模块会持续监控输入的视频和音频流，并以 1Hz 的频率自动决策是否发言。这种高频决策能力结合全双工特性，是实现主动提醒、主动评论等“主动交互”能力的关键。
可配置语音建模设计。 MiniCPM-o 4.5 延续了 MiniCPM-o 2.6 的多模态系统提示词设计，同时包含文本系统提示词和音频系统提示词（用于指定音色）。这使得模型在推理阶段能够通过简单的参考音频实现声音克隆和角色扮演。

MiniCPM-o 4.5 已在 GitHub、Hugging Face 等平台开源，结合面壁自研的行业首个开源的流式全模态模型高效端侧推理框架 llama.cpp-omni ，让模型部署更加简单、稳定、高效。

此外，基于统一系统软件栈 FlagOS 的跨平台能力，MiniCPM-o 4.5 在天数智芯、华为昇腾、平头哥、海光、沐曦等 6 款芯片上均获得端到端推理性能提升。

MiniCPM-o 4.5 亮点一览

再次刷新端侧全模态能力上限：全模态、视觉理解、文档解析、语音理解和生成、声音克隆能力达到领先水平，以及最佳推理效率和最低推理开销。
开启全模态全时感知：视觉、音频、文本不同模态输入输出不阻塞，即使在模型输出时，也在「看」和「听」，不丢失任何信息。
从“回合制”交互升级为“即时自由对话”：通过随时保持对外感知，模型可以以最合适的时机、最恰当的内容实时回复。
语音自然、情感饱满：显著提升全模态端到端语音生成的音色、拟人度、声音表现力，声音克隆支持自由定制音色，且长语音合成更加稳定。
原生全双工技术首创：采用端到端的全模态架构，结合全双工多模态实时流机制、主动交互机制、可配置语音建模设计，造就了 MiniCPM-o 4.5 与人一样自然的交互能力与体验。

模型链接

GitHub：https://github.com/OpenBMB/MiniCPM-o

HuggingFace：https://huggingface.co/openbmb/MiniCPM-o-4_5

ModelScope：https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

体验链接-双工全模态模式：https://minicpm-omni.openbmb.cn/

体验链接-图文对话模式：https://211.93.21.133:18121/

微信关注我们

原文链接：https://www.oschina.net/news/401941

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

黄仁勋驳斥 AI 将取代软件工具，称这是“世界上最不合逻辑的说法”

英伟达首席执行官黄仁勋驳斥了人工智能将取代软件及相关工具的担忧，称该想法“不合逻辑”，此前全球软件股在周二遭遇大幅抛售。这场抛售潮部分源于人工智能开发商Anthropic上周推出新版聊天机器人，加剧了市场对人工智能引发数据及专业服务行业颠覆性变革的担忧；抛售潮在周三进一步蔓延，波及印度、日本和中国的软件股。在思科系统公司于旧金山主办的一场人工智能大会上，黄仁勋表示，担忧人工智能会削弱软件企业重要性的想法存在误导，人工智能将持续依托现有软件，而非从零重构基础工具。黄仁勋称：“当下有种观点认为软件行业的工具正走向衰落，且将被人工智能取代……这是世界上最不合逻辑的说法，时间会证明一切。” “无论是人类、机器人还是通用人工智能机器人，都会选择使用工具而非重新发明工具。……这也是人工智能领域最新突破聚焦工具应用的原因，毕竟这些工具的设计初衷本就是功能明确、易于使用。”

2026-02-04

81

调研机构 QuestMobile 发布最新研报，显示 AI 已成为今年移动互联网增长的最核心驱动力，其中 AIGC APP 与插件生态贡献了最显著的增量。 AIGC 应用月活用户规模在去年实现净增超 2 亿，同比增速达到 150.4%，AI 插件月活规模则达到 6.96 亿，同比提升 37.8%，成为推动用户时长增长与生态重构的关键力量。此外，小程序生态在微信、支付宝及百度平台持续扩张，生活服务成为三大平台的核心场景。微信平台中，生活服务类月活超千万的小程序数量达到 68 个，远高于同类 APP 的 36 个，平台流量聚合作用明显。

2026-02-04

75

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。