人工智能在科学研究领域的应用再次取得里程碑式进展。Epoch AI FrontierMath开放问题集中的一个超图Ramsey理论难题已被多个先进AI模型成功攻克,其中包括GPT-5.4 Pro、Claude Opus 4.6 (max)、Gemini 3.1 Pro以及GPT-5.4 (xhigh)。这一突破标志着AI在高级数学推理和原创性研究方面迈出了重要一步。
该问题的核心挑战在于改进已知的H(n)下界估计。此前的最佳结果给出了一个递归定义的下界k_n,但研究者普遍认为这个下界并非最优,即使在渐近意义下也存在改进空间。问题的目标是找到新的超图构造方法,从而证明H(n) ≥ c·k_n对于某个常数c > 1成立。
![]()
据了解,该问题的首个解决方案由Kevin Barreto和Liam Price使用GPT-5.4 Pro获得。AI模型不仅成功找到了满足条件的超图构造算法,还提供了完整的数学论证。问题的贡献者、数学家Will Brian审阅了解决方案后予以确认,并评价道:"这是一个令人兴奋的解决方案。我之前曾怀疑AI的方法是否可行,但现在看来它完美地实现了。它消除了我们下界构造中的一个低效之处,在某种意义上反映了上界构造的精巧性。上下界匹配得如此之好,这在Ramsey理论问题中相当罕见。"
Brian计划将这一解决方案撰写成论文发表,并可能展开AI思路启发的后续研究。Barreto和Price将作为合作作者参与相关论文的撰写。GPT-5.4 Pro的完整对话记录和解题过程的PDF文档已公开,供学术界进一步研究和验证。
在首个解决方案问世后,Epoch AI团队完成了FrontierMath开放问题测试框架的开发。在这一标准化测试环境中,多个顶尖AI模型同样成功解决了该问题:Claude Opus 4.6 (max)、Gemini 3.1 Pro和GPT-5.4 (xhigh)都独立给出了正确解答。这一多模型验证过程增强了对AI解题能力的信心,也展示了当前前沿AI模型在复杂数学推理方面的普遍实力。
值得注意的是,较早版本的模型如GPT-5.2 Pro和Gemini 3 Deep Think在该问题上未能取得成功,凸显了模型迭代带来的能力跃升。从失败到成功的转变,反映了AI系统在数学推理、算法设计和长程规划等核心能力上的持续进步。
在问题发布前,相关领域的专家对该问题的难度和重要性进行了评估。据统计,全球约有10位数学家对这一专业课题有深入了解,其中5至10位曾认真尝试解决该问题。专家估计,人类专家解决这一问题通常需要1至3个月的时间。解决方案的学术价值被评为"中等程度有趣",适合发表在专业数学期刊上,且被认为很有可能衍生出更多有趣的数学问题。
这一成功案例对AI辅助数学研究的未来具有深远意义。它表明,在特定类型的组合数学和构造性问题上,AI已经具备了与人类专家竞争乃至超越的能力。随着AI推理能力的持续提升,数学研究中"猜想-证明-构造"的传统范式可能迎来根本性变革,AI有望从辅助工具演变为真正的研究伙伴。
参考来源
- https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs
- https://epoch.ai/files/open-problems/gpt-5-4-pro-hypergraph-ramsey.txt
- https://epoch.ai/files/open-problems/hypergraph-ramsey-gpt-5-4-pro-solution.pdf