阿里巴巴在混沌工程领域的实践和思考
APM 文章摘自知乎专栏 知乎-应用高可用 https://zhuanlan.zhihu.com/p/52505917导读: 混沌工程(Chaos Engineering):是在分布式系统上进行实验的学科, 目的是建立对系统抵御生产环境中失控条件的能力以及信心。最早由Netflix及相关团队提出。 故障演练(MonkeyKing):是阿里巴巴在混沌工程领域的产品,目标是沉淀通用的故障模式,以可控成本在线上重放,以持续性的演练和回归方式运营来暴露问题,不断推动系统、工具、流程、人员能力的不断前进。 通过本文,您将了解到: 为什么需要混沌工程 阿里巴巴在该领域的实践和思考 未来的计划 时间线和参考资料 关键词:混沌工程、故障演练、最小化爆炸半径 一、为什么需要混沌工程(翻译自Chaos Engineering电子书) 1.1 混沌工程与测试的区别 混沌工程、故障注入和故障测试在关注点和工具中都有很大的重叠。 混沌工程和其他方法之间的主要区别在于,混沌工程是一种生成新信息的实践,而故障注入是测试一种情况的一种特定方法。当您想要探索复杂系统可能出现的不良行为时,注入通信延迟和错误等失败是一种很...
