我们雇佣了一只大猴子...
Picture from Gremlin
我们“雇佣”了一只大猴子,只为“搞破坏”,不开玩笑。
这只猴子是用来做什么的?
从程序员的视角来看,提高系统稳定性的方法无外乎三种:
- 通过各种技术手段,例如在容器和调度、微服务、消息、软负载和配置中心等纬度提高系统和架构的健壮性;
- 提升监控的广度和深度,生产中一旦出现问题,能快速定位,给出解决方案;
- 生产就是大考,谁也不知道升学考中会出现什么样的试题,建立故障演练机制,把各类可以预见的故障提前演练出来,例如随机杀节点、延时响应,甚至中断机房;
这只猴子就是我们雇来做破坏,进行故障演练的队友。(疯起来,我们连自己都打)
这只猴子最早来源于哪?
Netflix的流媒体服务最初由Netflix工程师在Microsoft软件之上构建的,并位于垂直扩展的服务器机架中。然而,这一单一故障点在2008年8月受到攻击,当时
