ChatGPT 5.5 Pro 一小时攻克博士级数学难题，AI 数学能力再获重大突破-低调大师

ChatGPT 5.5 Pro 一小时攻克博士级数学难题，AI 数学能力再获重大突破

2026-05-09 68

菲尔兹奖得主、剑桥大学数学教授Timothy Gowers近日发布博客文章，详细记录了他使用ChatGPT 5.5 Pro进行数学研究的亲身经历。这款尚未公开发布的AI模型仅用约一小时便完成了多项博士级别的原创数学研究，成功解决了一个组合数学领域的开放性问题，引发学术界对AI数学能力的重新评估。

从"文献检索"到"原创发现"：AI数学能力的质变

Gowers教授在文章中指出，大语言模型在数学领域的应用经历了明显的演进过程。早期，LLM解决数学问题的方式往往被质疑为"只是从文献中找到现成答案"或"简单推导已知结果"。但随着技术迭代，这种质疑声音正在逐渐减弱。

"数学家们不断上调对LLM数学能力的评估，"Gowers写道，"我这次经历让我做出了相当大的修正。"

此次测试的ChatGPT 5.5 Pro展现了与以往不同的能力特征：它不仅能够识别被人类数学家忽略的简洁论证，还能在缺乏完整理论框架的情况下，构建出具有原创性的证明思路。Gowers特别强调，在整个过程中他几乎没有提供任何实质性的数学输入，甚至连提示词设计都未做特别优化。

攻克Nathanson问题：从指数界到多项式界的跨越

Gowers选择测试的问题来自数学家Mel Nathanson近期发表的论文《Diversity, Equity and Inclusion for Problems in Additive Number Theory》。该论文探讨了加性数论中的若干开放性问题，涉及和集（sumset）直径上界的估计。

A	=k和	hA

MIT本科生Isaac Rajagopal此前已证明，对于固定的h，该直径关于k呈指数级增长。而ChatGPT 5.5 Pro在Gowers的引导下，逐步改进了这一结果：

首次尝试中，模型耗时16分41秒，将上界从关于k的指数改进为关于k^α的指数（其中α>1/2）。随后，在Gowers要求下，模型继续探索多项式上界的可能性。经过13分33秒的思考，模型表示对存在多项式界持乐观态度，并识别出需要验证的几个技术性命题。在9分12秒的自我验证后，模型最终完成了完整的证明，总用时约一小时。

Rajagopal审阅了ChatGPT生成的预印本后表示，该证明"几乎肯定是正确的"，并特别指出这不仅是逐行验证层面的正确，更体现在核心思想层面的可靠性。

MIT学生的深度评析：AI贡献的核心思想

Rajagopal在Gowers博客中撰写了客座评论，详细解析了ChatGPT贡献的关键思想。他坦言，ChatGPT提出的改进多项式界的想法"既原创又巧妙"，"是那种我自己花一两周时间思考后会感到非常自豪的想法，而ChatGPT用了不到一小时就找到并证明了它。"

Rajagopal解释，问题的核心在于构造具有给定和集大小的集合。当h增大时，构造的复杂度必然增加，因为多项式的次数随h增长，需要更多参数来定义集合。ChatGPT的关键突破在于采用了一种巧妙的参数化方法，将指数界压缩为多项式界。

AI生成数学成果的归属与传播困境

Gowers在文章末尾提出了一个深刻的学术伦理问题：这类AI生成的数学成果应当如何处理？

按照传统标准，ChatGPT完成的这项工作完全达到发表水平，不应被视为"AI垃圾"。但将其投稿至传统期刊似乎毫无意义——这些成果可以自由获取，且不存在"署名权"争议（Rajagopal作为理论框架的奠基人理应获得充分认可）。

更棘手的是arXiv的政策障碍。目前arXiv明确拒绝接受AI撰写的内容，这在Gowers看来是合理规定，但也造成了实际困境。他建议可能需要建立专门的AI数学成果仓库，由人类数学家审核正确性，或经形式化验证工具确认后收录。

对数学研究生态的深远影响

Gowers的实验揭示了AI对数学研究范式的潜在冲击。传统上，组合数学等领域的新参数研究会产生大量自然衍生的问题，这些问题往往成为研究生入门研究的理想素材——难度适中，解决后能获得显著成就感。但随着AI能力的提升，"入门级别"开放问题的门槛正在迅速抬高。

"过去，只要有人提出一个问题，就足以让它成为有价值的研究课题，"Gowers反思道，"现在看来，这个标准已经不够了：问题必须足够困难，以至于LLM无法解决。"

这一变化对数学教育、研究生培养以及学术评价体系都可能产生连锁反应。当AI能够在一小时内完成传统需要数周甚至数月才能攻克的博士级研究，人类数学家的角色定位、研究方法乃至职业发展路径都将面临重新定义。

ChatGPT 5.5 Pro的具体技术细节和公开发布时间尚未公布，但Gowers的实验无疑为AI在纯数学研究领域的应用前景提供了强有力的实证支持。

参考来源：

Gowers's Weblog: A recent experience with ChatGPT 5.5 Pro (2026-05-08) https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/
Nathanson论文: Diversity, Equity and Inclusion for Problems in Additive Number Theory (arXiv:2603.15556) https://arxiv.org/abs/2603.15556
Erdős问题集: https://www.erdosproblems.com/

微信关注我们

原文链接：https://www.oschina.net/news/438280

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

DeepSeek 大范围开放识图模式：不是 OCR，是真看图说话

4 月 28 日，DeepSeek 多模态团队研究员陈小康在 X 平台发布了一条意味深长的推文：「Now, we see you.」配图是 DeepSeek 标志性的蓝色鲸鱼 —— 左边戴着海盗眼罩，右边则睁开了双眼。这条推文随后被删除，但「鲸鱼开眼」的隐喻已经传开。一天后的 4 月 29 日，DeepSeek 正式开启「识图模式」灰度内测。而到 5 月初，据多家媒体和用户反馈，该功能已大范围开放，「几乎所有测试账号都能看到入口」。不过，入口按钮上至今仍标注着一行小字：「图片理解功能内测中」。可以看到，在网页端和 App 的对话界面中，「识图模式」作为第三个标签，...

2026-05-09

78

5月8日，科技评论网站Techrights曝光了一份令人惊讶的数据：根据Linux Foundation（LF）最新发布的2025年度报告，该组织用于Linux本身的预算仅占其总预算的2.95%——也就是说，超过97%的资金流向了与Linux无直接关联的项目。 3.1亿美元收入，Linux只分到零头 Linux Foundation在报告中预测，2025年其总收入将超过3.1亿美元。这本应是一份展示开源生态繁荣的财报，但细心的读者翻到了第58页，发现真正花在Linux内核上的钱少得可怜。 Techrights在报道中引用了年度报告的截图，并经过核算确认：Linux相关支...

2026-05-09

70

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。