2024 年,一位前 FAANG 工程师决定辞职,成为独立 AI 研究者。要做研究就需要算力,于是他花 4.8 万美元亲手组装了一台搭载 6 张 RTX 6000 Ada GPU 的服务器——取名"grumbl"(他自嘲不会拼写"GPUs")。

最近他公开发布了这台服务器的完整使用数据,回答了那个所有自建算力的开发者都会问的问题:自己买 GPU 到底值不值?
算力即保险:4.8 万美元贵不贵?
4.8 万美元听起来是一笔巨款,但作者的逻辑是:这远低于他辞职带来的收入损失。如果更强大的 GPU 能帮助他的工作提前哪怕两个月完成,这笔投入就是值得的。因此他选择购买公寓能容纳的最大功率服务器。
选卡阶段,他参考了 Tim Dettmers 的 GPU 选购指南,在 A100、H100 和 RTX 6000 Ada 之间比较。由于 A100 不支持 FP8 且推理性能落后于新型号,而他的主要工作是强化学习推理,最终在 RTX 6000 Ada 和 H100 之间选择了前者——以 Lambda Labs 的价格/吞吐量比来看,6000 Ada 的性价比最优。
电力功率约束:公寓电路带不动 6 张显卡服务器
最大的工程挑战来自电力。6 张 GPU 需要大量供电,单独一个公寓电路无法承受。他不得不配置双电源,并将两个电源插口接在不同回路的插座上——这也是他聘请专业 PC Builder 而非自行组装的原因:"自己动手一旦出错,烧掉的是整栋公寓。"讽刺的是,最终他把这台服务器搬到了父母家的地下室,那里有条件升级电路。

自己买还是租云?
核心问题:自购 GPU 和租用云端算力,哪个更划算?
他的衡量方法是:记录每张 GPU 每分钟的使用情况,同时记录功耗以计算电费。2024 年他估算,按当时的云端 GPU 租赁价格,如果 GPU 利用率接近 85% 以上满负荷运行,大约一年就能和租赁成本打平。

从实际数据看,2025 年 1 月后的平均利用率达到 85%,但整体平均利用率为 76%。这个数字让他略感失望——他 24/7 不间断运行实验,任务队列始终排得很满,本以为轻松能达到 95% 以上。实际使用中有多次服务器停机维护的经历,每次停机他都焦虑万分:不知道是单个 PCIe Riser 卡故障,还是灾难性的硬件烧毁。
电费约为 3000 美元,约每月 125 美元
截至 2026 年 3 月 13 日,他计算出等效云租赁费用约 6.8 万美元,自建服务器(含电费)总成本约 5.1 万美元,已节省约 1.7 万美元。GPU 已完全回本,目前每天节省 90-105 美元。
真正的答案:买服务器的目的不是为了省钱
作者坦言,这台服务器给他带来的真正价值并不是省了多少钱。他花了很长时间尝试高风险/高回报的实验,经历过大量失败。最终他在 2025 年 5 月解决了 LLM 的一个重大问题,并于当周产品上线——400K+ 浏览量,多家公司联系希望使用他的 IP。这才是他购买服务器的真正原因。

几条忠告
作者强调,自建高端 GPU 服务器要非常谨慎,犯错的代价很昂贵。他有几个具体建议:主板选择很重要,他因为公寓电力限制选择了慢速 GPU 互联的主板,虽然适合跑大量小规模并行实验,但对需要多卡分布训练的模型来说简直是噩梦;PCIe riser 故障是主要故障来源,建议参考 Nathan Odle 的 riser 排查文章;保险是个问题,租房保险不覆盖这类设备,最终他不得不购买商业保险。
心态上,"拥有"和"租用"的差异巨大。租云端时每个实验都花钱,他会反复问自己"这个实验值不值";拥有服务器后,反而觉得"不跑实验就是在烧钱"。另外,他的时间成本并没有计入这个分析——服务器的搭建和维护本身耗费了大量精力。如果重新选择,他不会做这种定制组装,而是直接买标准数据中心服务器然后托管到共置中心。
对于预算有限的开发者,他的建议是:Google Colab 或便宜的云端 GPU 照样能做出出色的工作,不一定非要花 4.8 万美元。
参考来源 https://rosmine.ai/2026/05/13/was-my-48k-gpu-worth-it/