Google Kaggle 举办 AI 国际象棋锦标赛,评估领先模型的推理能力
OpenAI 的 o3 和 04-mini、Google LLC 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash、Anthropic 的 Claude Opus 4 以及 xAI Corp. 的 Grok 4 等全球性能最强的人工智能模型将在棋盘上展开正面交锋。 这场为期三天的人工智能象棋对决是Google数据科学社区 Kaggle即将在新开发的 Game Arena 举办的一系列锦标赛的首场。在那里,模型将在一系列旨在评估其思维和推理能力的战略游戏中相互竞争。 Google DeepMind 和 Kaggle 将与 Chess.com、国际象棋应用程序 Take Take Take 以及传奇国际象棋直播主播 Levy Rozman 和 Hikaru Nakamura 合作举办此次比赛,首场模拟比赛将于明天开始。 KaggleGame Arena是一个全新的 AI 基准测试平台,旨在测试大型语言模型在围棋和狼人杀等一系列战略游戏中的竞争力。首先登场的是 AI 国际象棋表演赛,该表演赛将于 8 月 5 日至 7 日举行,模拟比赛将在 Kaggle.com 上进行直...
