Recursive 公布自动化 AI 研究首批成果，三项基准测试均超越此前最优-低调大师

Recursive 公布自动化 AI 研究首批成果，三项基准测试均超越此前最优

2026-06-12 53

当大多数AI研究团队还在讨论"AI何时能自主做研究"时，Recursive已经发布了第一批实际结果。当地时间6月11日，这家专注于递归超智能的公司发布了其自动化AI研究系统的早期成果，在三项基准测试中均超越了此前由人类研究员优化的最优结果。

让算法自己跑实验

Recursive的系统核心设计是自动化整个研究循环：提出想法、实现方案、运行实验、验证结果，并利用学习到的知识指导下一轮实验。整个过程无需人类研究员持续干预，系统自主完成从假设到验证的完整链路。

这是一个不同于传统机器学习优化的范式。在标准的AutoML流程中，优化空间通常是预定义的——搜索架构、调整超参数——但研究的核心在于提出新的假设。Recursive的系统试图将这个"提出假设"的环节也纳入自动化循环，这需要系统具备某种程度的对研究方向的自我改进能力。传统的超参数搜索空间是固定的，而Recursive的系统据称能够自主扩展和修改搜索空间本身——这意味着系统不只是在大海中找最优解，而是能够重新定义海域。

三项基准测试的结果

第一批结果覆盖了三项不同方向的基准测试，均为量化指标：

NanoChat Autoresearch 测试的是语言模型的压缩效率。系统达到了 0.9109 的验证 BPB（Bits Per Byte），此前最优结果为 0.9372，相当于在同等压缩质量下将速度提升了 1.3 倍。BPB 是衡量语言模型压缩效率的标准指标，数值越低代表压缩效果越好。这一测试的难点在于：模型压缩不仅涉及架构选择，还涉及激活函数、量化策略、上下文窗口等多维度的联合优化。系统能够在这个多维空间中找到协同最优，说明其跨维度推理能力达到了一定水平。

NanoGPT Speedrun 测试的是训练速度。系统将 GPT 模型训练到 3.28 验证损失的耗时从 79.7 秒缩短至 77.5 秒——虽然绝对值看似不大，但考虑到这是在已有大量人工优化的成熟基线基础上取得的进步，且测试场景是整个社区投入多年优化的基准，这个边际改进的含金量并不低。对于一个已被反复优化的基准，每次能获得提升都意味着系统在某些细节上找到了人工尚未注意到的改进空间。

SOL-ExecBench 是系统级执行效率测试。系统在 mean SOL 指标上达到了 0.754，相比此前的最优值 0.699 提升了 18%。SOL 指标衡量的是系统在实际任务执行中的综合效率，提升 18% 意味着系统能够在同等算力下完成更多有效工作。这个幅度的提升在系统级基准测试中是显著的，通常只有架构层面的创新才能带来类似效果。

发现了什么

系统不仅在已有基准上取得提升，还自主发现了一些新的技术方案：哈希 bigram/trigram 嵌入（Hashed Bigram/Trigram Embeddings）、FP8 注意力投影（FP8 Attention Projections），以及自定义 GPU 内核（Custom GPU Kernels）。这些技术并非从现有论文中复制，而是系统在探索实验空间时独立"发现"的——虽然其中一些在事后看能找到相关的先验研究，但系统的贡献在于自主找到了这些方向，而非人类直接指定。

更值得关注的是，系统在已经被大型社区优化多年的成熟基准上也取得了进展。这类基准通常被认为已经接近饱和——大量研究者反复在其上精雕细琢，边际收益越来越小。如果自动化系统仍能在这种环境下找到改进空间，意味着自动化研究的能力边界尚未触及当前优化问题的实质上限。这对于判断 AI 自动化研究的前景是一个重要信号：至少在当前阶段，自动化系统尚未遇到不可逾越的"研究壁垒"。

开放与透明

Recursive将这些实验的artifacts开源发布在GitHub上，允许外部研究者复现和审查结果。在AI研究这个领域，自己宣布结果而不开放复现路径是容易受质疑的——系统的随机性、实验细节的缺失、以及选择性报告都可能是造成表面突破的原因。开放artifacts的做法为社区验证这些结果提供了基础。

递归超智能的定位

Recursive将自己定位为"递归超智能"公司，这个名称本身暗示了其研究的核心假设：AI系统能够通过递归地利用自身的改进来产生越来越强的能力，从而在智能上实现超水平的增长。如果首批自动化研究结果得到验证，它至少证明了系统能够在一个完整的自动化循环中产生有效的研究成果——这是该假设成立的前提条件之一。但距离真正意义上的"递归超智能"，仍有相当距离。

这项研究与更广泛的"AI for Science"浪潮方向一致：DeepMind在蛋白质结构预测（AlphaFold）、数学证明（AlphaProof）上的突破，以及Meta在蛋白质Universe上的工作，都在证明自动化研究在特定领域是可行的。Recursive的差异化在于尝试将自动化研究的能力泛化到多个基准任务上，而非局限于单一领域。

参考来源：https://www.recursive.com/articles/first-steps-toward-automated-ai-research

微信关注我们

原文链接：https://www.oschina.net/news/456701

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Inspektor Gadget 完成首次安全审计：未发现高危漏洞

CNCF 项目 Inspektor Gadget 已于近日完成了首次独立安全审计。这次审计由 Open Source Technology Improvement Fund（OSTIF）协调，CNCF 资助，并由安全公司 Shielder 执行。审计结果、修复方案以及后续加固建议均已公开；所有报告中提到的漏洞，目前也都已经有可用补丁。对于正在生产环境中使用 Inspektor Gadget 的团队来说，建议升级到 v0.50.1 或更高版本。 Shielder 安排了两名研究人员在 2026 年初执行本次审计。审计方法包括：协同威胁建模；人工源代码审查；在专用实验环境中进行动态测试； ...

2026-06-12

67

技术博主Brian Douglas在个人博客上发表了一篇简短但犀利的观察：AI生成的网页正在被同一种视觉模板所主导——Tailwind CSS。他的结论是：如果一个AI生成的产品网站看起来很敷衍，那它大概率就是用Tailwind CSS模板做的。从Hacker News随机抽查的结果 Brian分享了他的亲身实验过程：他在Hacker News的"Show HN"板块随机点击了多个所谓"vibe coded"（AI辅助编程）产品的链接，结果发现前四个无一例外都使用了同一种Tailwind前端模板。他以Apache Burr、Sp...

2026-06-12

58

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。