![file]()
船停在港湾是最安全的,但这不是造船的目的
完成使命的 SRE
过去 10 年,SRE 完成了体系化保障系统稳定性的使命。但在这个过程中,SRE 也逐渐变成了庞大的组织。而 SRE 本身的定位是保障系统稳定性,许多时候会因为担心稳定性而减缓发布。虽然我们希望软件的发布又快又稳,但无论是根据日常经验,还是从 DORA 的报告中,我们都能看到软件交付表现 (Software delivery performance) 和运行表现 (Operational performance) 整体上还是此消彼长的情况。
那有什么可以打破这个困局呢,DORA 在 2023 年的报告中也给出了答案,引入以用户为中心 (user-centric) 这个元素。
![file]()
到了实施层面,用户为中心对应的就是近两年逐渐兴起的平台工程 (Platform Engineering) 概念。
平台工程的崛起
平台工程最早能查到的系统性分享应该是 2017 年 The Paved Road at Netflix。
![file]()
平台工程的出圈是由去年「DevOps 已死,平台工程才是未来」的一条宣言开始的。
![file]()
当下平台工程已经成为了行业公认的趋势,就在前两天 Gartner 发布的 2024 技术趋势报告中,平台工程也是连续第二年上榜,还是在被 AI 相关的屠榜中占得一席之地(而去年爆炒的元宇宙已经不在了)。
![file]()
而在稍早之前 Gartner 另一份 Hyper Cycle 报告中,Platform Engineering 以及它的载体 Internal Developer Portal (IDP) 也从 2022 的创新逐渐走向 2023 的高峰。
![file]()
平台工程的背后有实力强大的商业公司背书,比如 HashiCorp, Harness。
![file]()
还有日益壮大的 Platform Engineering 社区。
![file]()
平台工程属于 PaaS 层,它的逐渐流行可以从三个方面来看:
- 在其之下依赖的 IaaS 层通常是各大云厂的 IaaS,这部分日趋成熟,所以使得精力可以上移到 PaaS。
- 在其之上被依赖的 SaaS 层则是各业务线,随着业务线的扩展,就希望提炼出一套可以复用的组件,这就是要下沉到 PaaS 层。
- PaaS 层本身的平台工具也日趋完善,从最底层的统一平面 Kubernetes 往上,已经有一组比较成熟的平台工具套件。
平台工程和之前的中台概念有类似之处,同样夹在底层 IaaS,上层业务 SaaS 之间。和中台业务的区别在于,之前的中台多面向业务层,是去整合上层散乱重复的业务系统。而平台工程则是面向基础层,去整合底层的基础设施系统。
现在拆中台的原因是虽然中台整合了,但离业务系统远了,无法响应前线的需求。平台工程崛起的原因,是因为下层的基础设施太复杂了,好不容易摸清门路,发现还有人挡路。Terraform 可以大获成功是因为它屏蔽了管理多云资源的复杂度。
平台工程要做的事情,就是把 Terraform 的成功泛化,把 SRE,PaaS,研发效能这些都整合在一起,提供一个对开发者友好,让他们可以自助的平台。
中台要拆的原因是业务的需求是各异的,电商,外卖,放贷有完全不同的业务逻辑。平台工程可以合的原因是研发的需求是共通的:大家都用 Git 做代码管理,用 Prometheus 看监控,用 Terraform 管云资源,用 Bytebase 管数据库,从否认开始解决 bug 的第一步。
![file]()
结束语
平台工程会是未来,但在研发组织拥抱平台工程的过程中,也首先还需要经历一段 SRE, PaaS, 研发效能这几个团队整合的阵痛。早年的运维工程师叫做 PE,当中历经 SRE 的转型,如今又要迈向 PE。从 Production Engineer 到 Platform Engineer,历史的轮回,冥冥之中自有天意。
💡 你可以访问官网,免费注册云账号,立即体验 Bytebase。