腾讯开源多模态统一 CoT 奖励模型
腾讯混元联合上海 AI Lab、复旦大学、上海创智学院,于近日正式推出了全新研究成果 —— 统一多模态奖励模型(Unified Reward-Think)。“首次让奖励模型在各视觉任务上真正 “学会思考”,实现对复杂视觉生成与理解任务的准确评估、跨任务泛化与推理可解释性的大幅提升。” 目前该项目已全面开源:包括模型、数据集、训练脚本与评测工具。“UnifiedReward-Think 展示了奖励模型的未来方向 —— 不仅仅是一个 “打分器”,而是一个具备认知理解、逻辑推理与可解释输出能力的智能评估系统。” 一、背景与动机:奖励模型也需要 “思考” 当前的多模态奖励模型大多只能对结果进行 “表面判断”,缺乏深度推理与可解释的决策依据,难以支撑对复杂视觉任务的精准评估。该工作研究团队提出关键问题:是否可以引入 “长链式思考”(Chain-of-Thought, CoT)机制,赋予奖励模型更强的推理能力? 挑战在于,当前缺乏高质量的多模态 CoT 奖励推理数据,传统 SFT 等训练范式难以直接教会模型掌握推理过程。他们认为,多模态大模型本身具备深层、多维度的推理潜力,关键在于设计一套高效训练...
