对《GitHub服务中断24小时11分钟事故分析报告》的分析
对《GitHub服务中断24小时11分钟事故分析报告》的分析
声明
本文是根据公众号“高效开发运维”翻译整理的GitHub服务中断分析报告的信息进行分析。可能存在某些观点有误,如果有欢迎指出。
原文地址:GitHub服务中断24小时11分钟事故分析报告
官方报告英文地址:October 21 post-incident analysis
背景
UTC 时间 10 月 21 日 22:52,为了更换发生故障的 100G 光纤设备,美国东海岸网络中心与美国东海岸数据中心之间的连接被断开。连接在 43 秒后恢复,但这次短暂的中断引发了一系列事故,导致 24 小时 11 分钟的服务降级。
简单分析
根据报告里信息描述,大致意思是要做一个计划中的变更,替换东海岸网络中心和数据中心之间的光纤,网络中断了43秒。在43秒内一个全局的容灾高可用机制(Orches
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
【2018中国计算机大会】阿里云高级总监谈超大规模超高性能分布式快存储系统
新型硬件(如NVRAM、RDMA、GPU/TPU等)及其构建的异构复杂环境,与既有硬件环境的巨大差异,导致传统的算法、数据结构甚至是涉及原则和经验法则等难以为继,对计算智能与大数据处理带来新的挑战和机遇。 10月27日下午,2018中国计算机大会上举办了主题“新型硬件环境下大数据处理技术”的技术论坛,一起探讨新型硬件带来的变化。论坛上,阿里云高级总监马涛针对超大规模超高性能分布式块存储系统ESSD进行了报告分析。 专家简介: 马涛,阿里云高级总监,在IBM、ORACLE有多年的操作系统以及企业级存储的研发经验,2010年加入阿里巴巴集团淘宝核心系统部,负责淘宝底层操作系统的设计和研发工作。2014年转入阿里云,负责阿里云弹性计算存储相关产品的研发工作。 在报告中,马涛指出面对企业上云实现数字化转型以及新硬件架构层出不穷,现有存储产品已无法
- 下一篇
如何从零搭建一个自动化运维体系
对自动化运维体系的需求,是随着业务的增长、对运维效率和质量的要求不断提高而产生的。 前言: 在很多初创公司和中小型企业里,运维还停留在“刀耕火种”的原始状态,这里所说的“刀”和“火”就是运维人员的远程客户端,例如 SecureCRT 和Windows 远程桌面。 在这种工作方式下,服务器的安装、初始化,软件部署、服务发布和监控都是通过手动方式来完成的,需要运维人员登录到服务器上,一台一台去管理和维护。这种非并发的线性工作方式是制约效率的最大障碍。 同时,因为手动的操作方式过于依赖运维人员的执行顺序和操作步骤,稍有不慎即可能导致服务器配置不一致,也就是同一组服务器的配置上出现差异。 有时候,这种差异是很难直接检查出来的,例如在一个负载均衡组里面个别服务器的异常就很难发现。 随着业务的发展,服务器数量越来越多,运维人员开始转向使用脚本和批量管理
相关文章
文章评论
共有0条评论来说两句吧...