面对不可避免的故障,我们造了一个“上帝视角”的控制台
作者|肖长军(穹谷) 来源 | 阿里巴巴云原生公众号 混沌工程随着云原生的发展逐渐进入大家的视野,通过混沌工程可以很好地发现和解决在云原生化过程中的高可用问题。阿里巴巴在 2019 年开源了底层的混沌工程工具- chaosblade,今年年初再次开源混沌工程控制台 chaosblade-box,ChaosBlade 品牌进一步升级。本文主要围绕云原生面临的高可用挑战和混沌工程机遇,详细介绍开源控制台的设计、特性和实践和未来规划,旨在帮助企业更好的了解控制台并通过其来实现混沌工程落地,解决云原生系统下高可用问题。 去年年底 AWS 和 Google 都出现了比较严重的服务故障:AWS 故障是由于处理数据流服务 kinesis 出现问题,导致很多云服务不可用;Google 故障是由于登录服务的扩容配额问题导致多服务不可用。从中可以发现,他们都存在因服务依赖不合理,导致一个服务故障影响多个服务不可用,缺少应急预案,整个故障恢复时间比较长,监控告警系统不完善等问题,Google 故障发生几十分钟后才感知故障的发生,AWS 的 CloudWatch 处于不可用的状态。故障不可避免,所有的一切时时...



