数字化灾难!2016年九大服务停机事故总结
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
【51CTO.com快译】2016年发生的一系列停机事故已经导致众多知名品牌遭受严重损失,其商业信誉与消费者信心亦因此受到重大打击。发生停机事故的主要原因之一在于计划外的系统配置变更,这通常是因为即时bug或者潜在系统安全漏洞修复意外引发了更为严重的问题。
为了避免发生计划外停机,我们将在这里回顾过去一年中出现的那些最为严重的服务停机事故,希望能够以此为鉴指导新一年中的业务连续性保障工作。
美国西南航空
去年10月,836条西南航空航线遭遇延误,而根源在于该公司航线技术系统中的问题。根据该公司介绍,技术人员不得不全力修复主要系统并利用备份规程以帮助客户及其托运行李正确到达目的地。
达美航空
达美航空公司证实,亚特兰大当地的一次电力中断影响到其凌晨时开始进行的系统更新,并最终导致计算机系统瘫痪以及大量航班延误。该公司同时警告称,当周一其被迫因此取消大量航班,且机场屏幕及其它飞行状态系统将无法正常显示航班相关信息。
根据统计,此次时长达5小时的停机共造成2000次航班取消,总体损失估计达1.5亿美元。
Salesforce
这家云应用厂商在其官方网站上指出,其NA14实例上的一套数据库出现文件完整性问题,并导致超过12个小时的服务停机事故。
根据统计,由此次停机造成的经济损失约为2000万美元。
苹果
去年6月,苹果公司放下的iCloud、App Store、iTunes以及Apple TV等一系列互联网服务发生长达9小时的停机事故。另外,去年12月初用户们亦发现其暂时无法登录自己的iCloud账户。
Slack
去年6月,高达300万用户在2小时内由于Web服务器过载而无法正常访问Slack。
该公司目前正在就如何避免再次发生类似问题而进行讨论。
身份是解决问题的关键
为了避免发生停机事故,IT运营团队应当对现有服务进行分层,同时将系统身份识别作为业务中的关键性因素。其中***应用应是那些与业务成败直接关联的重要应用,例如销售点、票务或者计费等功能相关的应用。
为***系统制定故障切换计划
高可用性水平不可能自然实现,我们必须为其做好规划及实施。具体而言,高可用性立足于系统架构中的各个方面。***系统需要切实配合故障切换计划,同时利用额外负载容量处理意外出现的负载峰值。
投资建立高水平监控堆栈
如果无法把握服务的当前运行状态,那么保证其运行状态也将成为痴人说梦。事实上,准确了解IT系统运行状态的惟一途径就是在堆栈中的各个层面上引入***监控工具(例如系统监控、应用监控、Web与用户监控、日志记录以及错误追踪等方案)。目前IT行业正积极利用这种分层式功能独立方案取代原有的整体式服务监控机制,从而适应持续提升的IT系统复杂性与动态水平。
在警报机制内区分有效信号与干扰信号
工具数量的增加同时意味着我们需要面对更多干扰信号。为了有效识别、分类并解决潜在问题,IT团队必须找到可行方式以正确进行有效信号与干扰信号分离。通过采用警报关联解决方案,IT团队将能够了解各监控工具的警报信息间存在哪些联系,从而快速过滤掉非关键性问题,最终集中精力处理最重要的风险因素。
原文标题:Tech outages of 2016 and how to prevent them in 2017
原文作者:Ryan Francis
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】
点赞 0

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Linux 25年发展历史带给我们的9项启示
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 【51CTO.com快译】Linux内核社区于2016年迎来了其二十五岁生日,很多朋友询问我们实现项目长久发展及成功的秘诀。对于这样的问题,我通常会以笑话回应——因为说实话,我也不知道这一切是怎样实现的。不过重要的是,我们之所以能够这样摸索向前,是因为社区自身拥有着强大的反省与变革能力。 大约十六年前,大多数内核开发者彼此从未谋面——大家只是通过邮件沟通。为了解决这个问题,随后出现了内核峰会。如今,Linux内核开发者们每年都会齐聚一堂,共同探讨技术问题并反思自己过去一年中哪些事做得对、而哪些事做得不够理想。我们会开发Git这类新型工具,从而不断改变彼此间协作的方式。 随着时间推移,这种演变带来了弹性,使得Linux项目能够不断迈上新的台阶,同时避免由fork带来的力量分散问题。也许其中确实有着一些重要的成功关键,下面我将试着阐述其中的9项启示。 1.保持较短发布周期非常重要。 在Linux项目发展早期,每套新的内核大版本往往需要数年才能发布一次。这意味着用户需要拿出大量时间等待新功能的加入,这对于使用者以及发行商...
- 下一篇
需求旺盛:市场提供大量机器学习与物联网相关岗位
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 【51CTO.com快译】传统观点认为,机器学习与AI相关职位在人才市场中呈现出旺盛需求——但根据职位搜索引擎Indeed给出的统计结果,“炙手可热”也许才是更为准确的表达。 根据Indeed自2014年以来发布的趋势数据,人工智能与机器学习相关职位数量(根据关键词统计得出)自2014年年初至2016年年初一直保持着增长趋势——由每百万条中占60条增长至如今的100条。而单在2016年年内,此类职位的数量就增长了两倍——目前已经达到每百万条内150条。 智能化浪潮 早在2014年,人工智能就已经开始在各大新兴技术——包括3D打印、区块链技术、物联网、虚拟/增强现实以及可穿戴式技术——当中呈现出领先优势。除物联网外,以上列出的各项新兴技术目前在每百万条职位信息中约占10条比例。 Indeed统计结果 AI/机器学习相关职位的搜索结果变化,可以看到相关工程师需求正不断提升。 Indeed网站的数据还显示出另一项机器学习需求看涨的证据:此类职位目前的搜索数量亦不断提升——每百万次搜索中占100次。 通过进一步研究,Ind...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Red5直播服务器,属于Java语言的直播服务器
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Hadoop3单机部署,实现最简伪集群
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音