面壁智能 ForgeTrain 如何 8 小时追平、2 天反超英伟达 Megatron-LM？-低调大师

面壁智能 ForgeTrain 如何 8 小时追平、2 天反超英伟达 Megatron-LM？

2026-07-02 6

2026 年 6 月 27 日晚，面壁智能联合 OpenBMB 开源社区、AGI BAR 共同举办了「AI4AI 发酵夜」线下活动。

面壁智能AI Infra技术负责人李宇轩以「AI制造AI：范式·衡量·钥匙——以ForgeTrain 给出迈向 Level 4 的单点实证」为题进行深度分享，系统梳理了 AI 自我迭代研发的底层逻辑、理论体系与前沿实践，并详细解读了全球首个完全由 AI 编写、无人类干预的生产级大模型预训练框架 ForgeTrain 背后的技术思想。

随后，来自产学研各界的数十位开发者、投资人、产业从业者与研究者等围绕定制化与通用框架之争、英伟达 CUDA 生态壁垒、递归自举（Recursive Bootstrapping）天花板等等前沿话题展开了热烈讨论。

以下是演讲精选与精彩 QA：

「AI 制造 AI」：算力与智能的边界突围

李宇轩指出，今年初以来，多个信号表明 AI 能力正在发生质变：

计算机科学泰斗 Donald Knuth 重新审视生成式 AI 的潜力，OpenAI 的 Harness Engineering 实现了零人工介入编写百万行代码，DeepMind 让 AI 自主研究科学问题。从单点事件到整个行业的加速迭代，一个共识正在形成：模型能力的继续提升，不能再只靠堆数据、堆算力。

面壁智能 AI Infra 技术负责人李宇轩在北京 AGI BAR 进行线下分享

从经济学视角看，大语言模型受 Transformer 和 Scaling Law 驱动走到今天，高质量互联网数据和算力供给均已逼近边界，边际效益急剧递减。当模型初步具备自我迭代能力后，「AI 制造 AI」就成了打破这一瓶颈的唯一高效路径。尤其在我国高端芯片受限的背景下，通过算法和工程手段成倍提升算力效率，已经不仅是技术追求，更是产业战略。

更宏大的视角是将这一进程与工业革命相类比：工业革命从「用机器带动体力」走到了「用机器制造机器」，智能革命也正从「用 AI 替代脑力」迈向「AI 制造 AI」。两者具有深刻的同构性，只不过这次被替代和制造的，是智能本身。

给「AI 制造 AI」一把量尺：从 L1 到 L5 的能力阶梯

当前行业的问题在于，虽然方向明确，却缺乏一个系统性的理论框架来衡量和指引。李宇轩参考 OpenAI 的通用智能分级，提出了「AI 制造 AI」的五个等级：

• L1 提示建议级：AI 能就 AI 研究提供建议，人类执行所有操作；

• L2 辅助研发级：AI 可辅助研发链路中的具体环节，如编写代码、调试、数据清洗；

• L3 闭环交付级：AI 在既定技术范式内端到端交付模型，自主完成架构调整、损失函数修改、超参数优化以及评测和数据清洗等任务；

• L4 递归改进级：AI 开始具备科研判断力，能提出新架构、优化器或训练范式，并「现场锻造」专用基础设施，实现递归自举；

• L5 协同演化级：AI 自主设定议程，与环境协同演化，成为问题的提出者而非仅解决者。

李宇轩判断，在通用智能上，初步小规模的 L4 已经成功；但在「AI 制造 AI」这个垂直能力上，目前 L2 已站稳，L3 仅有 Anthropic 等极少数团队能做到，效果尚不稳定。而面壁智能瞄准的，正是如何跨越 L3，直接向 L4 发起冲击。

ForgeTrain 实战：8 小时追平，2 天反超的定制化力量

在具体实践层面，李宇轩系统介绍了面壁智能自研、完全由 AI 编写、无人类介入的生产级预训练框架 ForgeTrain 背后的技术思路与实证结果。

他表示，实现「AI 制造 AI」需要一套可迭代的评测和训练体系，面壁智能的解法借鉴了通用模型通过大量数学和代码训练提升能力的逻辑——先构建一个复杂的工程评测环境（Harness），使 AI 在持续解决真实工程难题的过程中增长能力。

是否有可能跨越式实现 AI 制造 AI ？上一阶段的钥匙「Harness」是逐级而上的通用解，已在算子、论文复现、训练配方、数据筛选四个方向得到验证；而在工程这一维度，供需两侧的剧变让我们能够跨级直取 L4——需求侧，新算法和新模型对「专属优化基础设施」的渴求激增；供给侧，AI编程成本已趋近于零，定制不再奢侈。两者汇合，便催生了 ForgeTrain。

ForgeTrain 的核心思路是：让 AI 针对特定模型和硬件平台，从零「锻造」一个专用的训练框架，而非人工编写通用框架。根据基准测试数据，ForgeTrain 在 8 小时内追平了业界旗舰框架 Megatron-LM 的性能，在 1.5 至 2 天内实现稳定反超（MFU 提升约 8%～10%），且该能力可迁移至不同模型（如 MiniCPM4-0.5B/8B ）和不同硬件平台（H100 及华为昇腾 NPU）。

李宇轩进一步解释，这一成效建立在四阶段 Harness 优化流程之上：

1. Anchor 阶段：锁定二进制不变量，实现与参考实现逐位一致（ max_abs_diff = 0 ），构建可信基线；

2. Bit-for-Bit 阶段：在保证二进制一致的前提下，快速生成支持 checkpoint 等基础功能的代码版本；

3. Surpass 阶段：解除二进制约束，允许 Agent 自主枚举算子路径、图捕获和调度组合，追求更长训练稳定性和多项指标优化；

4. Per-Op 阶段：针对 GEMM、FlashAttention 等算子逐项深度定制，结合科学融合，最大化单算子 MFU。

整个过程单调递进，前阶段锁定的正确性属性不会被后续回滚，全程自动判定，无人工干预。这种「用 AI 打穿Infra」的做法，不仅是一次技术突破，更代表了一种全新的工程哲学——Forge Engineering。

Forge Engineering：面向 AI 时代的工程新范式

李宇轩将 ForgeTrain 背后体现的工程思想概括为「Forge Engineering」。

他分析称，传统做法倾向于维护一套通用框架以适配多种硬件，但在 AI 模型与芯片迭代速度远超基础软件迭代速度的当下，这种模式正变得日益沉重且效率不高。Forge Engineering 主张「生产便宜、高效定制」：

根据模型和硬件的具体特征，即时生成量身定做的训练软件栈，把英伟达多年来靠人力和生态积累的护城河，转化为一个可以被 AI 自动解耦和重构的技术问题。

他认为，这一思想不仅适用于训练框架，更将席卷整个 AI Infra 行业乃至大部分软件工程。未来，每个人都有能力训练自己的模型，模型成为个人深度定制的智能助手，而软件将以「模型定制化」的形态大规模涌现。这是瓦解旧生态，也是赋予个人和小团队超能力的开始。

开放性问题：算法、工程、数据与对齐的前沿攻坚

在演讲尾声，李宇轩还就当前面临的几项开放性技术难题进行了讨论。

在算法方向，如何让 AI 跳出局部改进、自主提出范式级创新，仍是一个尚未被有效解决的基础问题；

在工程方向，能否在仅访问少量硬件甚至无硬件的条件下直接构建超大规模并行基础设施，将影响自进化研发的效率上限；

在数据方向，自主构造能够持续推动模型智能提升的数据合成方法，以及从海量数据中筛选出有助于模型获得更优抽象能力的高质量数据，是当前研究的重点；

在对齐方向，如何实现 AI 与环境协同进化，并确保 AI 发展始终符合人类利益，仍是整个行业需要长期关注的命题。

AI 制造 AI 的浪潮刚刚拉开序幕，面壁智能将继续在智能进化的前沿深耕，让模型自己写下下一代模型的代码。

微信关注我们

原文链接：https://www.oschina.net/news/471441

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

扮演操作系统是怎样一种体验？这个 Python 游戏在 GitHub 斩获 2.2K Star

如果你玩过《装机模拟器》或者《深圳I/O》，那你大概会对"You're the OS!"这款游戏感兴趣。它的设定很直白——你不是在玩电脑，你就是电脑。你需要像真正的操作系统一样管理进程调度、内存分配和I/O事件，而你的"用户"耐心正在一分一秒地流逝。这个项目由加拿大开发者Pier-Luc Brault创建，在GitHub上已经收获了超过2200个Star，累计226次提交和16个正式版本，最近一次更新是2026年4月发布的v1.11.0。游戏的核心机制模拟了真实操作系统的资源管理困境。CPU时间需要调度给不同的进程，内...

2026-07-02

2

印度塔塔电子（Tata Electronics）的一个工厂机房，成了苹果近年来最不愿意看到的安全噩梦。 6月中旬，勒索组织"World Leaks"在暗网上陆续放出超过20万份文件，总规模约630GB。这些文件来自塔塔电子——苹果在印度的核心代工与零部件供应商，承担着印度约三分之一的iPhone产量。路透社随后确认了泄露数据的真实性。泄露的不只是新iPhone长什么样如果这只是一批外观谍照，苹果的公关团队大概不会太紧张。但这次泄露的内容远比谍照致命。六份文件将iPhone 18 Pro的数百个零部件与具体供应商一一对应。主板上的芯片是谁家的，电...

2026-07-02

6

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。