美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
近期,以 OpenAI o 系列模型、Claude 3.5 Sonnet 和 DeepSeek-R1 等各类大模型为代表的 AI 技术快速发展,其知识与推理能力得到了广泛认可。然而,许多用户在实际使用中也注意到一个普遍现象:模型有时未能严格遵循输入指令的具体格式要求、字数限制或内容约束,导致输出结果虽内容尚可,却不完全符合输入指令。 针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks。 基于 Meeseeks 基准的评测结果显示(以轮次 3 为准),推理模型 o3-mini (high)凭借绝对优势强势登顶,与另一版本 o3-mini(medium)包揽冠亚军;Claude 3.7 Sonnet 的"思考版"则稳居第三,共同构成本次评测的第一梯队,而 DeepSeek-R1 在所有模型中排名仅第七,GPT-4o 排名第八。此外 DeepSeek-V3 在非推理大模型中处于领先位置,而 Qwen2.5 则展现出参数规模与指令遵循能力并非绝对相关的有趣现象。(备注:评测结果来源于 Meese...

