Anthropic 发文称,该团队在尝试一种被称为“agent teams”的新的语言模型监督方法。借助该方法,多个 Claude 实例可以并行处理共享代码库,无需人工干预,从而极大地扩展了 LLM agents 的功能范围。
为了进行压力测试,研究员 Nicholas Carlini 运用 16 个 Claude Opus 4.6 智能体在几乎无需人类干预的情况下,经过近 2000 次 Claude Code 会话和 2 万美元的 API 费用,仅用两周的时间便合作编写了约 10 万行的 Rust 代码,成功构建了一个功能完备的 C 语言编译器。该编译器可以在 x86、ARM 和 RISC-V 架构上构建 Linux 6.9。
根据介绍,为了实现持续自主的进展,研究员构建了一个程序,让 Claude 进入一个简单的循环。当它完成一个任务后,会立即开始下一个任务。且研究员会在提示词告诉 Claude 需要解决的问题,并要求它将问题分解成小块,跟踪它正在处理的部分,找出下一步要处理的部分,并有效地持续进行直到完美为止。
#!/bin/bash
while true; do
COMMIT=$(git rev-parse --short=6 HEAD)
LOGFILE="agent_logs/agent_${COMMIT}.log"
claude --dangerously-skip-permissions \
-p "$(cat AGENT_PROMPT.md)" \
--model claude-opus-X-Y &> "$LOGFILE"
done
此外,该编译器还可以编译 QEMU、FFmpeg、SQLite、PostgreSQL 和 Redis,甚至可以编译并运行 Doom 游戏。在 GCC 压力测试套件的评估中,这款编译器的通过率高达 99%。
不过,研究人员也坦承,该编译器并非完美无缺。其局限性包括:
- 它缺少 boot Linux out of real mode 所需的 16 位 x86 编译器。为此,它调用了 GCC(x86_32 和 x86_64 编译器是其自有组件)。
- 它没有自己的汇编器和链接器;这些是 Claude 最后才开始自动化的部分,目前还存在一些缺陷。演示视频是用 GCC 汇编器和链接器生成的。
- 该编译器能够成功编译许多项目,但并非所有项目都能成功。它目前还不能完全替代真正的编译器。
- 生成的代码效率不高。即使启用所有优化,其效率也低于禁用所有优化的 GCC 生成的代码。
- Rust 代码质量尚可,但远不及专业 Rust 程序员编写的代码质量。
“最终得到的编译器几乎达到了 Opus 功能的极限。我尽力尝试修复上述几个限制,但并未完全成功。新功能和错误修复经常会破坏原有功能。”
目前,Anthropic 已将该项目开源。接下来,研究人员还计划让 Claude 提交新的更改。
更多详情可查看官方博客。