技术从业者 Arnon Shimoni 在个人博客发表长文,系统性地解释了当前 AI 定价模式崩解的根本原因,视角与媒体评论不同——这是一篇来自直接操刀定价决策者的复盘。

作者开门见山:微软取消内部 Claude Code 授权、Uber 在四个月内烧完 2026 年全年 AI 预算、GitHub 放弃固定费率方案——这些事件并非孤立的商业决策失误,而是整个行业在错误的假设上建立定价模型的必然结果。所谓"AI 补贴时代结束",本质是各公司当初把 AI 功能塞进每一个产品层级时,押注推理成本会持续下降——但这个押注从一开始就没有道理。
文章的核心逻辑从两个维度展开。第一是需求诱导定律(induced demand):每降低一次单位成本,用户行为就会随之膨胀。高速公路增加车道会吸引新的通勤需求,AI 降价会激发新的使用场景。上一代模型每 token 成本确实下降了最高 10 倍,但那是对标上一代的质量水平——用户不会因为成本降低而减少使用,恰恰相反:推理成本降低刺激了更长的上下文、更复杂的 Agent 工作流、更重的 reasoning 查询。作者举例自己的复杂推理查询从 2 分钟延长到 4 分钟以上,Agent 工作流从 1 次调用扩张到 50 次——单位成本下降,但调用量爆炸,总账单不减反增。
第二层是供给侧的成本结构彻底转向反面。Morgan Stanley 估算下一代 NVIDIA VR200 系列的物料清单将比上一代高出 95%,其中内存成本单独贡献了435%的增长。HBM(高带宽内存)市场被 SK 海力士主导,三星的良品率落后,美光更在其后——而内存工厂的产能扩张周期至少18到36个月,且已在低估需求的规划假设下排产。GPU 价格是稀缺定价的典型表现:顶级 GPU 和 TPU 的集群规模成本比上一代贵约2倍,HBM 价格在 18 个月内涨了 4 倍。每个超大规模云厂商现在都在宣传"建设千兆瓦园区"和"核能 PPA"的计划,无论是真是假。

作者援引了 Ed Zitron 对 Anthropic CFO 宣誓供词的分析:该公司 2026 年已在计算基础设施上支出 100 亿美元,但仅产生 50 亿美元营收——实验室在计算和推理上完全处于水下,只能涨价以维持灯火。
关于定价架构的未来方向,作者总结了三种已经存在的模式:按调用计费(每一次 API 调用、每一次生成、每一步 Agent 动作都有价格,收益与成本都绑定在同一个底层事件上,如 Twilio 自 2008 年起执行的模式);预付积分制(客户购买积分包后在任意使用场景中消耗,积分可混合不同模型成本,是管理多推理供应商产品的唯一合理方式,但存在"积分成为被遗忘的礼品卡"这种客户资产沉没风险);以及混合模式(基础席位含积分,超额按量计费,这是大多数 AI 原生产品在其第一次重新定价周期中会收敛到的设计,尽管不是作者的"最爱"但确实有效)。

文章的结论是:定价架构中没有"固定成本"这个选项——凡是把成本视为固定的,最终都要在两条路中选择一条:要么吃掉利润,眼睁睁看着它随着客户用量增长而每个季度被压缩;要么把 AI 功能从低价位层级移除,然后看着低价位客群的激活率暴跌。两种选择都会在下一份董事会演示文稿上出现,都不好玩。
参考来源:https://arnon.dk/the-current-ai-pricing-was-always-going-to-go-away/