百度开源 ERNIE-4.5-VL-28B-A3B-Thinking
百度文心多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking 宣布正式开源,仅 3B 激活参数。
根据介绍,ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型,在视觉语言多模态理解能力上实现了显著提升。模型具备领先的文档与图表理解能力,在理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,该模型推出“图像思考”等创新功能,为多模态思维与交互应用带来更丰富的可能。
在中期训练(Mid-Training)阶段,模型引入了海量高质量视觉-语言数据,显著增强了模型的表征能力与跨模态语义对齐能力,从而显著提升了视觉文本推理性能。
同时,ERNIE-4.5-VL-28B-A3B-Thinking在可验证的任务上采用大规模多模态强化学习,它利用GSPO和IcePop策略来稳定基于MoE的RL训练,结合了动态难度采样机制,提升强化学习的有效率。
ERNIE-4.5-VL-28B-A3B-Thinking 还进一步强化了模型的定位能力,提升了模型的指令遵循性。当用户需要时,可更便捷地触发视觉定位功能。以及引入了“图像思考”创新能力,让模型兼备图片放大和图片搜索等工具调用能力。

