2026年6月24日,OpenAI 首次向外界展示了其自研的首款定制 AI 推理芯片,代号 Jalapeño。这颗芯片由 OpenAI 与 Broadcom 联合设计与制造,专为 OpenAI 推理系统的工作负载而优化。OpenAI 表示,公司自家的 AI 模型也参与了芯片设计过程。虽然芯片仍在测试阶段,但早期结果显示其每瓦性能显著优于当前市场上最先进的替代方案。
对于密切关注 AI 基础设施竞争的人来说,Jalapeño 的问世并不意外,但它落地的速度仍然值得关注。OpenAI 与 Broadcom 的合作在 2025 年 10 月正式宣布,而在此之前,OpenAI 自研芯片的传闻已经在业内流传了至少一年。早在 2025 年初,路透社就报道了 OpenAI 计划在当年完成首款定制芯片设计的消息。如今,这颗芯片以实物形态而非 PPT 的形式出现,意味着 OpenAI 从芯片设计到流片、再到测试验证的全流程已经跑通。

理解 Jalapeño 的战略意义,需要先厘清 AI 芯片市场当前的格局。过去五年,Nvidia 的 GPU 几乎垄断了 AI 训练和推理的计算市场——从 GPT-4 到 Claude 到 Gemini,几乎所有前沿模型的训练和部署都依赖 Nvidia 的 H100/B200 系列芯片。这种依赖带来的问题是双重性的:一方面是成本,Nvidia 的高端 GPU 售价长期维持在高位,且供不应求;另一方面是架构通用性的代价——GPU 是为通用并行计算设计的,而非专门为 Transformer 架构或特定推理场景优化。这为定制芯片留下了明确的优化空间:如果能针对自家模型的特定计算模式定制硅片,理论上可以实现数倍的能效比提升。
Google 是最早验证这条路线的公司。它的 TPU(张量处理单元)从 2016 年起就为内部推理和训练工作负载提供支持,目前已经迭代到第六代。Amazon 紧随其后,先后推出推理芯片 Inferentia 和训练芯片 Trainium,为 AWS 上的 AI 客户提供 Nvidia 之外的选择。Jalapeño 的亮相,标志着 OpenAI 也正式加入了这场"用定制硅片打破 GPU 垄断"的行列——而且它不是从零开始的。Broadcom 在定制 ASIC 领域拥有数十年的经验,曾为 Google、Meta 等公司定制过数据中心芯片,这次合作本质上是 OpenAI 的算法知识加上 Broadcom 的工程能力的结合。
Broadcom 在这场合作中的角色同样值得玩味。作为全球最大的定制 ASIC 设计公司之一,Broadcom 的业务模式与 Intel 或 AMD 等通用芯片厂商有本质区别——它不制造可以在市场上公开销售的标准化芯片,而是为特定客户设计特定用途的定制硅片。在此之前,Broadcom 已经为 Google 的 TPU 系列、Meta 的推荐系统加速器等多个大型数据中心项目提供过定制芯片设计服务。与 OpenAI 的合作之所以引人注目,是因为它意味着 Broadcom 正在巩固自己在 AI 定制芯片设计领域的核心供应商地位——而当一家年营收超百亿美元的芯片巨头把 AI 模型公司视为最重要的长期客户群时,整个产业链的权力结构正在发生深刻的转移。
OpenAI 总裁 Greg Brockman 在合作宣布后的内部播客中解释了公司的芯片策略。他说,OpenAI 对自家工作负载有"深入的理解",一直在寻找那些被通用硬件"服务不充分"的特定场景——那些用 GPU 跑成本太高、但用定制芯片却可以大幅优化的计算模式。Jalapeño 正是为推理场景定制的——即当用户向已训练好的 AI 模型发送请求时,模型生成响应的计算过程。在官方公告中,OpenAI 特别强调了这颗芯片在运行实时编程模型时的低运营成本。这意味着对于 Codex 这类需要低延迟、高并发的代理式 AI 产品来说,Jalapeño 可能带来直接的单位经济效益改善。

一个容易被忽略但同样重要的细节是:OpenAI 的 AI 模型参与了 Jalapeño 的设计过程。这并非营销噱头。芯片设计中的布局布线、电源网络优化、时序收敛等环节存在大量的排列组合搜索空间,正是 AI 擅长的领域。Google DeepMind 在 2020 年就展示了用强化学习优化芯片布局的能力,并在其 TPU 设计中实际部署了这一技术。OpenAI 使用自家模型辅助芯片设计,意味着 AI 不仅在向上游(产品、应用)渗透,也在向下游(硬件、基础设施)延伸——用 AI 来设计运行 AI 的芯片,这种"自举"效应在工程意义上耐人寻味。
对成本的关注贯穿了 Jalapeño 的整个叙事。OpenAI 在声明中特意指出:"OpenAI 不仅开发前沿模型或在其上构建产品,它还在设计其底层的基础设施:芯片架构、内核、内存系统、网络、调度、部署系统和产品体验。因为 OpenAI 横跨整个技术栈,每一层都可以围绕同一个目标进行优化:让模型对用户来说更快、更可靠、更经济。"这段表述清晰地勾勒出了一种垂直整合策略,类似于苹果对 iPhone 的做法——控制从芯片到操作系统到应用的全链路,以换取性能和体验的最优解。
从商业角度审视,Jalapeño 的经济账不难算。推理成本是目前 AI 商业化的核心瓶颈之一——当 OpenAI 以每月 20 美元或 200 美元的订阅价格向用户提供 ChatGPT 和 ChatGPT Pro 时,每一次对话、每一次代码生成都在消耗 GPU 的计算资源。如果定制芯片能将单次推理的能耗和时延降低 30% 到 50%——考虑到 Google TPU 在类似场景中已经证明了这一量级的改进是可行的——那么无论是在保持价格不变的前提下提高毛利率,还是在降低价格的同时扩大用户基数,都给 OpenAI 提供了更多战略选择。尤其值得关注的是 OpenAI 特别提到实时编程模型的运行成本,这暗示了 Codex 及其衍生产品(如 GitHub Copilot 背后的模型服务)可能是 Jalapeño 首批承载的商业化负载之一。
当然,Jalapeño 目前还远未到量产阶段。OpenAI 坦承芯片仍在测试中,更重型的任务如预训练"可能仍将依赖 Nvidia 硬件"。考虑到芯片从测试到大规模部署通常需要一到两年时间,以及良率、散热、软件生态兼容性等一系列工程挑战,Jalapeño 真正成为 OpenAI 推理基础设施的主力可能要到 2027 年至 2028 年。但即便如此,它的出现已经向市场传递了一个清晰的信号:AI 模型公司正在向上游扩张,芯片将不再是只能向 Nvidia 购买的商品,而可以成为差异化的护城河。
参考来源: