稳定性建设框架 | 京东物流技术团队

2023-09-01 904

一、为什么要做稳定性建设

1、从熵增定律引出稳定性建设的必要性

物理学上，用“熵”来描述一个体系的混乱程度。卡尔·弗里德曼提出熵增定律，他认为在一个封闭的系统内，如果没有外力的作用，一切物质都会从有序状态向无序状态发展。

如果我们不希望系统变混乱，有什么办法呢？答案是对抗熵增定律，对抗熵增定律的方法是借助外力，让系统从混乱回归有序。举个例子：

下图中，我们使用“熵”值来衡量“骰子系统”的混乱程度，1（最大值）表示“最混乱”，意味着我们不能控制“投骰子”的结果，每次投骰子的结果会在1~6随机出现，系统表现不稳定；1/6（最小值）表示“最有序”，意味着我们能够控制“投骰子”的结果，系统表现稳定，比如我们希望每次投筛子的结果都是6，我们可以引入作弊手段（即借助外力），让每次投骰子结果都是6。

熵增定律同样适合软件系统，一个软件系统刚发布时是有序的，熵值趋于1，随着不断迭代，慢慢变成混乱的、脆弱的，从而导致线上问题频发，熵值趋于0，我们需要借助外力，即稳定性治理手段，提高系统熵值，让系统恢复稳定。

2、稳定性建设的意义

如下图分析，系统不稳定会产生真金白银的损失，因此，稳定性建设的意义是：不是让业务多挣钱，而是让业务不丢钱！

3、稳定性衡量公式

① 公式

通过如下公式衡量系统稳定性：Availability = MTTF / (MTTF + MTTR) ②公式说明

MTTF (Mean Time To Failure，平均无故障时间)，指系统无故障运行的平均时间，取所有从系统开始正

常运行到发生故障之间的时间段的平均值，即： MTTF =ΣT1/ N。

MTTR (Mean Time To Repair，平均修复时间)，指系统从发生故障到维修结束之间的时间段的平均值，即：

MTTR =Σ(T2+T3)/ N。

③公式量化

通常是“SLA是几个9”去衡量，对应下表：

④常见问题

问题：SLA应该按照哪个维度去定义？接口、应用、业务？

答：都可以，只要讲清楚是接口SLA，还是应用SLA，还是业务SLA就可以。但注意：提到应用SLA，应该等于核心接口的最差SLA；提到业务SLA应该等于黄金链路的最差SLA。

问题：SLA时间计算周期应该多少？

答：都可以，主要讲清楚计算周期就可以，一般以年为单位更具代表性。

4、常见误区

①不要认为“分布式环境是稳定的”

认为：网络是可靠的，带宽是无限的，网络的拓扑不会变，延时为0，传输开销为0

实际：网络会抖动，带宽有上限，存在down机导致的拓扑变化，存在响应超时的概率，等等。

②不要有“确定性思维”，要有“不确定思维”

认为：遵守经验法则，if x then y。举例：我见过天鹅是白色的，所以世界上所有天鹅都是白色的；这个系统一直运行良好，所以未来也不会有问题。

应该：世界是不确定的，if x then maybe y。举例：天鹅还有黑色的。

③不要“甩锅”，要有“主人翁精神”

认为：故障是因为他们系统挂了，我们只需要打电话通知一下，慢慢等着恢复就行。

应该：提前思考依赖系统故障了，我们如何让我们用户尽可能的正常运行；故障出现了，共同想办法解决问题。

二、业界现状

1、技术现状

互联网的发展，带来越来越大的流量，为了支撑越来越大的流量，架构也一直在演进：单体应用架构 -> 垂直应用架构 -> 分布式架构 -> SOA架构 -> 微服务架构 -> 服务网格。当前流行的微服务架构中，在应用层面、基建层面上都会有一些保障稳定性的机制：

应用层面的稳定性保障机制

以SpringCloud全家桶为例，提供了很多组件，帮助我们保障系统稳定性，如下图：

基建层面的稳定性保障机制

基建层面上，也会有一些稳定性保障机制，如下表：

2、落地现状

根据所见所闻，当前技术团队做稳定性治理一般采用如下2种方法：

运动式的搞一波稳定性建设

当线上故障频发，通常会搞个“稳定性治理专项”，定义一些治理点，并给出方案，然后运动式的搞一波。一般经过治理后，稳定性会明显好转，但是由于是运动式的搞，随着业务不断迭代，根据“熵增定律”，稳定性又变差。

缺点：不能闭环的搞，治理时稳定性好转，不治理时稳定性变差，给人感觉技术团队一直出问题。

点状的搞，针对每个点专项闭环治理

比如搞个“慢SQL治理专项”，通过监控平台发现慢SQL，给研发发工单，并考核时效；比如搞个“限流治理专项”，让所有接口配置限流参数，配置限流告警策略。

缺点：研发会感觉稳定性专项很多，也不清楚价值，有时候会应付了事，达不到稳定性治理的目标。

三、稳定系治理应该如何开展

将稳定性建设分为3个阶段：事前预防，事中止损，事后复盘，针对这3个阶段，建设思路分别是：

1、事前预防

稳定性建设本质上是对抗熵增原理的过程，具体是通过一些技术手段（比如超时治理、限流治理、降级治理、慢SQL等），提前对系统可能出现的故障，建设应对措施，从而让系统按照设计目标去运行。

注意：稳定性治理的手段很多，每落实一种治理手段，稳定性就能提升一点，可以列出所有已知的治理手段，然后按照优先级逐个治理。

2、事中止损

按照稳定性衡量公式（如下图），降低T2或T3可以提升SLA，因此，出现故障后，应该尽可能的降低T2和T3。降低T2的方法是尽快发现系统出现故障，需要依赖监控和告警能力；降低T3的方法是尽快解决问题，需要先止损后找原因，需要一套明确的SOP提高效率。

3、事后复盘

复盘的目标不是定责，而是为避免再犯，因此，在复盘过程中要追到直接原因和根本原因，这2者有很大区别：直接原因指的是因果关系，表达“因为干了什么，所以导致什么”；根本原因是流程规范、认知迭代层面的问题，比如“因为分支规范不是master上线，导致上丢代码，如果改用gitflow则能够能够完全避免上丢代码的问题”。

关于直接原因和根本原因的举例：陈胜吴广起义，直接原因是：下大雨，可能会迟到，迟到要杀头，所以造反了；根本原因是：秦朝严苛的制度，即使没有那场雨，即使没有陈胜吴广，也会有下一场雨，下一个张胜某广，因为别的原因进行起义。

四、稳定系治理框架

如上一章节所述，当我们从“事前预防，事中止损，事后复盘”的角度去挖掘稳定性治理手段，会发现有很多业界流行的手段，比如超时治理、限流治理、系统隔离、常态化压测、慢SQL治理等等。

然而技术资源永远有限，能够拿出15%的比例做稳定性治理，已经很不错了；另外，业务的不同发展阶段需要的稳定性手段不一样，不同稳定性治理手段的ROI也不一样，因此，我们需要回答一个问题：在有限的研发资源下，如何去按部就班的去搞稳定性治理。

最佳实践是：搭建一个稳定性治理的框架，把稳定性治理手段填充进去，根据业务所处阶段，选择适合当下的稳定性治理手段，可以通过如下的表格进行管理：

备注：稳定性治理框架建起来后，治理手段可以随时增加、减少，框架的价值是给我们一个全景图，让我们知道该干什么、在干什么，而不是瞎干。

五、具体治理方案

根据上一章节的稳定性治理框架，接下来要做的就是针对某个治理手段，出具体的治理方案，要求具体方案能够形成闭环，并融入到研发过程中去，比如：

“慢SQL治理”的落地方案

定义慢SQL的标准，即执行时间超过多少ms算慢SQL
通过监控平台发现慢SQL
给研发负责人发治理工单
验收治理效果

“超时治理”的落地方案

为每个接口定义合适的超时时间
每周巡检一次接口，发现超时时间不合理的接口
修正超时时间

六、写在最后

稳定性治理是一个长期的过程，要把稳定性的工作融入到研发过程中，一方面要有意识尽量别埋坑，比如微服务强调中间件隔离，我们就不要混用中间件了，另一方面稳定性问题要一步到位，比如治理超时时间，要有个完整规范定义超时时间，并在研发过程中对新增接口、历史接口都配置合理，且能够动态更新。

作者：京东物流郑传洲

来源：京东云开发者社区自猿其说Tech 转载请注明来源

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/10106419

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深入MaxCompute -第十弹 -IF ELSE分支语句

简介： MaxCompute通过脚本模式支持IF ELSE分支语句，让程序根据条件自动选择执行逻辑，支持更好的处理因数据不同而需要采用不同策略的业务场景产生的复杂SQL，提高开发者编程的灵活性！ MaxCompute（原ODPS）是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用，支撑了多个 BU 的核心业务。MaxCompute 除了持续优化性能外，也致力于提升 SQL 语言的用户体验和表达能力，提高广大 MaxCompute 开发者的生产力。 MaxCompute 基于 MaxCompute2.0 新一代的 SQL 引擎，显著提升了 SQL 语言编译过程的易用性与语言的表达能力。我们在此推出深入 MaxCompute 系列文章第一弹 -善用MaxCompute编译器的错误和警告第二弹 -新的基本数据类型与内建函数第三弹 -复杂类型第四弹 -CTE，VALUES，SEMIJOIN 第五弹 -SELECT TRANSFORM 第六弹 -User Defined Type 第七弹 -Grouping Set, Cube and Rollup 第...

2023-08-31

843

1 什么是研发效能？对于一个企业来说，最大化企业效能是其必求目标，包括：利润、用户规模、客服满意度、运营效率等。对于自有产品研发的互联网公司来说，研发效能是服务企业效能的重要因素。一个软件研发的完整流程如下图所示：从需求提出到交付整个流程中交付期望产品的效率和能力，即研发效能。 2 为何要提升研发效能？下面从宏观和微观两个例子说明研发效能在我们日常需求交付中的影响：（1）站在各自视角，效率高效；站在全局业务视角，反应迟缓。上面这张图反映了单个需求的交付过程。绿色线表示需求正在被处理，红色线表示需求在等待中。工作量不大的需求，交付周期却很长，这是因为大部分时间需求都处于等待状态，可能是由于跨部分也可能是因为前、中、后台对工作优先级处理不同，就会导致需求链路局部最优，总体效率不高，相信很多人会感同身受，这已成为产品交付的普遍困境。（2）API对接处理在API接口测试过程中，输入参数的临界值没有妥善处理的问题十分常见，比如某个输入参数是String类型，但是代码实现中没有考虑String变量为null的情况。这类问题通常都会在后期调试或者联调阶段才会被发现，此时再去修复的成本...

2023-09-01

864

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。