当大多数AI研究团队还在讨论"AI何时能自主做研究"时,Recursive已经发布了第一批实际结果。当地时间6月11日,这家专注于递归超智能的公司发布了其自动化AI研究系统的早期成果,在三项基准测试中均超越了此前由人类研究员优化的最优结果。

让算法自己跑实验
Recursive的系统核心设计是自动化整个研究循环:提出想法、实现方案、运行实验、验证结果,并利用学习到的知识指导下一轮实验。整个过程无需人类研究员持续干预,系统自主完成从假设到验证的完整链路。
这是一个不同于传统机器学习优化的范式。在标准的AutoML流程中,优化空间通常是预定义的——搜索架构、调整超参数——但研究的核心在于提出新的假设。Recursive的系统试图将这个"提出假设"的环节也纳入自动化循环,这需要系统具备某种程度的对研究方向的自我改进能力。传统的超参数搜索空间是固定的,而Recursive的系统据称能够自主扩展和修改搜索空间本身——这意味着系统不只是在大海中找最优解,而是能够重新定义海域。
三项基准测试的结果
第一批结果覆盖了三项不同方向的基准测试,均为量化指标:
NanoChat Autoresearch 测试的是语言模型的压缩效率。系统达到了 0.9109 的验证 BPB(Bits Per Byte),此前最优结果为 0.9372,相当于在同等压缩质量下将速度提升了 1.3 倍。BPB 是衡量语言模型压缩效率的标准指标,数值越低代表压缩效果越好。这一测试的难点在于:模型压缩不仅涉及架构选择,还涉及激活函数、量化策略、上下文窗口等多维度的联合优化。系统能够在这个多维空间中找到协同最优,说明其跨维度推理能力达到了一定水平。

NanoGPT Speedrun 测试的是训练速度。系统将 GPT 模型训练到 3.28 验证损失的耗时从 79.7 秒缩短至 77.5 秒——虽然绝对值看似不大,但考虑到这是在已有大量人工优化的成熟基线基础上取得的进步,且测试场景是整个社区投入多年优化的基准,这个边际改进的含金量并不低。对于一个已被反复优化的基准,每次能获得提升都意味着系统在某些细节上找到了人工尚未注意到的改进空间。

SOL-ExecBench 是系统级执行效率测试。系统在 mean SOL 指标上达到了 0.754,相比此前的最优值 0.699 提升了 18%。SOL 指标衡量的是系统在实际任务执行中的综合效率,提升 18% 意味着系统能够在同等算力下完成更多有效工作。这个幅度的提升在系统级基准测试中是显著的,通常只有架构层面的创新才能带来类似效果。

发现了什么
系统不仅在已有基准上取得提升,还自主发现了一些新的技术方案:哈希 bigram/trigram 嵌入(Hashed Bigram/Trigram Embeddings)、FP8 注意力投影(FP8 Attention Projections),以及自定义 GPU 内核(Custom GPU Kernels)。这些技术并非从现有论文中复制,而是系统在探索实验空间时独立"发现"的——虽然其中一些在事后看能找到相关的先验研究,但系统的贡献在于自主找到了这些方向,而非人类直接指定。
更值得关注的是,系统在已经被大型社区优化多年的成熟基准上也取得了进展。这类基准通常被认为已经接近饱和——大量研究者反复在其上精雕细琢,边际收益越来越小。如果自动化系统仍能在这种环境下找到改进空间,意味着自动化研究的能力边界尚未触及当前优化问题的实质上限。这对于判断 AI 自动化研究的前景是一个重要信号:至少在当前阶段,自动化系统尚未遇到不可逾越的"研究壁垒"。
开放与透明
Recursive将这些实验的artifacts开源发布在GitHub上,允许外部研究者复现和审查结果。在AI研究这个领域,自己宣布结果而不开放复现路径是容易受质疑的——系统的随机性、实验细节的缺失、以及选择性报告都可能是造成表面突破的原因。开放artifacts的做法为社区验证这些结果提供了基础。
递归超智能的定位
Recursive将自己定位为"递归超智能"公司,这个名称本身暗示了其研究的核心假设:AI系统能够通过递归地利用自身的改进来产生越来越强的能力,从而在智能上实现超水平的增长。如果首批自动化研究结果得到验证,它至少证明了系统能够在一个完整的自动化循环中产生有效的研究成果——这是该假设成立的前提条件之一。但距离真正意义上的"递归超智能",仍有相当距离。
这项研究与更广泛的"AI for Science"浪潮方向一致:DeepMind在蛋白质结构预测(AlphaFold)、数学证明(AlphaProof)上的突破,以及Meta在蛋白质Universe上的工作,都在证明自动化研究在特定领域是可行的。Recursive的差异化在于尝试将自动化研究的能力泛化到多个基准任务上,而非局限于单一领域。
参考来源:https://www.recursive.com/articles/first-steps-toward-automated-ai-research