面壁智能开源新一代全模态旗舰模型 MiniCPM-o 4.5
面壁智能开源了新一代全模态旗舰模型 MiniCPM-o 4.5。作为原生全双工的全模态大模型,MiniCPM-o 4.5 让人机交互再上新台阶——通过「边看、边听、主动说」的全模态能力,让 AI 告别死板的“对讲机”回合制交互,成为行业首个「即时自由对话」的大模型,感知不中断、对话不死板、提醒无需问。同时仅依靠 9B 的小身材,将行业高刷视觉理解、端到端语音对话等最先进的模型能力「All in One」,让 AI 真正开启类人感知与沟通交互的新时代。 MiniCPM-o 4.5 架构介绍 MiniCPM-o 4.5 采用了端到端的全模态架构,并创新的加入了全双工多模态实时流机制、主动交互机制、可配置语音建模设计,造就了 MiniCPM-o 4.5 与人一样自然的交互能力与体验。 端到端全模态架构。各模态的编码器/解码器与大语言模型通过稠密特征以端到端的方式进行紧密连接。这种设计实现了更好的信息流转与控制,有助于在训练过程中充分挖掘和利用丰富的多模态知识。 全双工多模态实时流机制。 ...

