xAI 发布最新模型 Grok 4.1:更少幻觉、更准事实、更强风格控制
马斯克旗下 AI 公司 xAI 宣布推出 Grok 4.1,称这是一款前沿模型,为对话智能、情感理解和现实世界的实用性树立了新标准。目前 Grok 4.1 已在 grok.com、iOS 和 Android 应用上线,用户可通过模型选择器手动选择 “Grok 4.1”。
据介绍,Grok 4.1 在创造性、情感互动、协作能力上大幅提升,同时保留此前的“敏锐智能与可靠性”。为了实现上述提升,xAI 在 Grok 4 的大规模强化学习基础上,进一步优化了“风格、人格、帮助性、与对齐”(alignment)等方面。其中特别使用了新的方法:以“先进的代理(agentic)推理模型”为奖励模型,自主评估并大规模迭代响应。
Grok 4.1 技术与基准表现
-
在 LMArena 的 “Text Leaderboard” 中,Grok 4.1 的 “thinking 模式”(代号
quasarflux)达到 1483 Elo 分,领先所有非-xAI 模型。其 “non-reasoning 模式”(代号tensor,即没有思考 tokens 的即时响应模式)也达1465 Elo,超越所有其他模型的完全推理配置。 -
在“情感智能”评测(EQ-Bench3)中,Grok 4.1 表现出了更好的共情、理解、洞察与人际交互能力。
-
在“创意写作”评测(Creative Writing v3 benchmark)中也展现提升,其语言更具“角色感”、更具情感和叙事张力。
-
在减少“幻觉”方面(即对事实性问题的错误回答)也有进展。4.1 在“非推理”模型配合搜索工具时,幻觉率有显著下降。尤其使用了 FActScore(生物传记问题基准)衡量。
详情查看:https://x.ai/news/grok-4-1



