2026 年 6 月 27 日晚,面壁智能联合 OpenBMB 开源社区、AGI BAR 共同举办了「AI4AI 发酵夜」线下活动。
面壁智能AI Infra技术负责人李宇轩以「AI制造AI:范式·衡量·钥匙——以ForgeTrain 给出迈向 Level 4 的单点实证」为题进行深度分享,系统梳理了 AI 自我迭代研发的底层逻辑、理论体系与前沿实践,并详细解读了全球首个完全由 AI 编写、无人类干预的生产级大模型预训练框架 ForgeTrain 背后的技术思想。

随后,来自产学研各界的数十位开发者、投资人、产业从业者与研究者等围绕定制化与通用框架之争、英伟达 CUDA 生态壁垒、递归自举(Recursive Bootstrapping)天花板等等前沿话题展开了热烈讨论。
以下是演讲精选与精彩 QA:
「AI 制造 AI」:算力与智能的边界突围
李宇轩指出,今年初以来,多个信号表明 AI 能力正在发生质变:
计算机科学泰斗 Donald Knuth 重新审视生成式 AI 的潜力,OpenAI 的 Harness Engineering 实现了零人工介入编写百万行代码,DeepMind 让 AI 自主研究科学问题。从单点事件到整个行业的加速迭代,一个共识正在形成:模型能力的继续提升,不能再只靠堆数据、堆算力。

面壁智能 AI Infra 技术负责人李宇轩在北京 AGI BAR 进行线下分享
从经济学视角看,大语言模型受 Transformer 和 Scaling Law 驱动走到今天,高质量互联网数据和算力供给均已逼近边界,边际效益急剧递减。当模型初步具备自我迭代能力后,「AI 制造 AI」就成了打破这一瓶颈的唯一高效路径。尤其在我国高端芯片受限的背景下,通过算法和工程手段成倍提升算力效率,已经不仅是技术追求,更是产业战略。
更宏大的视角是将这一进程与工业革命相类比:工业革命从「用机器带动体力」走到了「用机器制造机器」,智能革命也正从「用 AI 替代脑力」迈向「AI 制造 AI」。两者具有深刻的同构性,只不过这次被替代和制造的,是智能本身。
给「AI 制造 AI」一把量尺:从 L1 到 L5 的能力阶梯
当前行业的问题在于,虽然方向明确,却缺乏一个系统性的理论框架来衡量和指引。李宇轩参考 OpenAI 的通用智能分级,提出了「AI 制造 AI」的五个等级:
• L1 提示建议级:AI 能就 AI 研究提供建议,人类执行所有操作;
• L2 辅助研发级:AI 可辅助研发链路中的具体环节,如编写代码、调试、数据清洗;
• L3 闭环交付级:AI 在既定技术范式内端到端交付模型,自主完成架构调整、损失函数修改、超参数优化以及评测和数据清洗等任务;
• L4 递归改进级:AI 开始具备科研判断力,能提出新架构、优化器或训练范式,并「现场锻造」专用基础设施,实现递归自举;
• L5 协同演化级:AI 自主设定议程,与环境协同演化,成为问题的提出者而非仅解决者。

李宇轩判断,在通用智能上,初步小规模的 L4 已经成功;但在「AI 制造 AI」这个垂直能力上,目前 L2 已站稳,L3 仅有 Anthropic 等极少数团队能做到,效果尚不稳定。而面壁智能瞄准的,正是如何跨越 L3,直接向 L4 发起冲击。
ForgeTrain 实战:8 小时追平,2 天反超的定制化力量
在具体实践层面,李宇轩系统介绍了面壁智能自研、完全由 AI 编写、无人类介入的生产级预训练框架 ForgeTrain 背后的技术思路与实证结果。
他表示,实现「AI 制造 AI」需要一套可迭代的评测和训练体系,面壁智能的解法借鉴了通用模型通过大量数学和代码训练提升能力的逻辑——先构建一个复杂的工程评测环境(Harness),使 AI 在持续解决真实工程难题的过程中增长能力。
是否有可能跨越式实现 AI 制造 AI ?上一阶段的钥匙「Harness」是逐级而上的通用解,已在算子、论文复现、训练配方、数据筛选四个方向得到验证;而在工程这一维度,供需两侧的剧变让我们能够跨级直取 L4——需求侧,新算法和新模型对「专属优化基础设施」的渴求激增;供给侧,AI编程成本已趋近于零,定制不再奢侈。两者汇合,便催生了 ForgeTrain。

ForgeTrain 的核心思路是:让 AI 针对特定模型和硬件平台,从零「锻造」一个专用的训练框架,而非人工编写通用框架。根据基准测试数据,ForgeTrain 在 8 小时内追平了业界旗舰框架 Megatron-LM 的性能,在 1.5 至 2 天内实现稳定反超(MFU 提升约 8%~10%),且该能力可迁移至不同模型(如 MiniCPM4-0.5B/8B )和不同硬件平台(H100 及华为昇腾 NPU)。
李宇轩进一步解释,这一成效建立在四阶段 Harness 优化流程之上:
1. Anchor 阶段:锁定二进制不变量,实现与参考实现逐位一致( max_abs_diff = 0 ),构建可信基线;
2. Bit-for-Bit 阶段:在保证二进制一致的前提下,快速生成支持 checkpoint 等基础功能的代码版本;
3. Surpass 阶段:解除二进制约束,允许 Agent 自主枚举算子路径、图捕获和调度组合,追求更长训练稳定性和多项指标优化;
4. Per-Op 阶段:针对 GEMM、FlashAttention 等算子逐项深度定制,结合科学融合,最大化单算子 MFU。
整个过程单调递进,前阶段锁定的正确性属性不会被后续回滚,全程自动判定,无人工干预。这种「用 AI 打穿Infra」的做法,不仅是一次技术突破,更代表了一种全新的工程哲学——Forge Engineering。
Forge Engineering:面向 AI 时代的工程新范式
李宇轩将 ForgeTrain 背后体现的工程思想概括为「Forge Engineering」。
他分析称,传统做法倾向于维护一套通用框架以适配多种硬件,但在 AI 模型与芯片迭代速度远超基础软件迭代速度的当下,这种模式正变得日益沉重且效率不高。Forge Engineering 主张「生产便宜、高效定制」:
根据模型和硬件的具体特征,即时生成量身定做的训练软件栈,把英伟达多年来靠人力和生态积累的护城河,转化为一个可以被 AI 自动解耦和重构的技术问题。

他认为,这一思想不仅适用于训练框架,更将席卷整个 AI Infra 行业乃至大部分软件工程。未来,每个人都有能力训练自己的模型,模型成为个人深度定制的智能助手,而软件将以「模型定制化」的形态大规模涌现。这是瓦解旧生态,也是赋予个人和小团队超能力的开始。
开放性问题:算法、工程、数据与对齐的前沿攻坚
在演讲尾声,李宇轩还就当前面临的几项开放性技术难题进行了讨论。
在算法方向,如何让 AI 跳出局部改进、自主提出范式级创新,仍是一个尚未被有效解决的基础问题;
在工程方向,能否在仅访问少量硬件甚至无硬件的条件下直接构建超大规模并行基础设施,将影响自进化研发的效率上限;
在数据方向,自主构造能够持续推动模型智能提升的数据合成方法,以及从海量数据中筛选出有助于模型获得更优抽象能力的高质量数据,是当前研究的重点;
在对齐方向,如何实现 AI 与环境协同进化,并确保 AI 发展始终符合人类利益,仍是整个行业需要长期关注的命题。

AI 制造 AI 的浪潮刚刚拉开序幕,面壁智能将继续在智能进化的前沿深耕,让模型自己写下下一代模型的代码。