指针“爆雷”导致公司损失上亿资金
1990 年 1 月 15 日,AT&T 的新泽西运营中心检测到大范围的系统故障,网络显示屏上出现了大量红色警告。
尽管试图排除故障,但网络故障仍持续了 9 个小时,导致呼叫连接故障率达到 50%。
AT&T 因此损失了 6000 多万美元,6 万多名美国人的电话完全无法接通。
此外,500 个航班延误,8.5 万人受到影响。
按理说,AT&T 的长途网络是高效率的典范,它利用先进的电子交换机和信号系统处理了全国大部分的电话。该系统通常能在几秒钟内完成电话路由选择。
然而,就在这一天,从纽约的一个交换机开始,整个网络出现了故障。这是由于最近一次更新中的一个软件错误造成的,该错误影响了网络中的 114 个交换机。当纽约的交换机复位并发出信号时,这个错误引发了多米诺骨牌效应,导致大范围的网络中断。
有趣的是,这个软件并没有经过测试。由于代码改动较小,因此按照管理层的要求绕过了测试。
问题所在
追根溯源,原因在于网络交换机实施的软件更新中出现了编码错误。
该错误发生在一个 C 语言程序中,涉及嵌套条件语句中一个错位的中断语句,导致数据覆盖和系统重置。
伪代码
1 while (ring receive buffer not empty and side buffer not empty): 2 Initialize pointer to first message in side buffer or ring receive buffer 3 get copy of buffer 4 switch (message): 5 case (incoming_message): 6 if (sending switch is out of service): 7 if (ring write buffer is empty): 8 send "in service" to status map 9 else: 10 break // The error was here! END IF 11 process incoming message, set up pointers to optional parameters 12 break END SWITCH 13 do optional parameter work
问题分析
- 如果环写入缓冲区不是空的,那么第 7 行的 `if` 语句就会被跳过,取而代之的是第 10 行的中断语句。
- 然而,为了使程序正常运行,本应执行第 11 行。
- 当中断语句被执行,而不是处理传入的信息并为可选参数设置指针时,数据(本应保留的指针)就会被覆盖
- 纠错软件识别出数据被覆盖,并启动关闭开关进行重置。由于网络中的所有交换机都使用了这种有缺陷的软件,导致了连锁重置反应,最终瘫痪了整个网络系统,使问题变得更加复杂。
尽管进行了严格的测试,网络的设计也非常灵活,但一行代码还是导致了半个国家的主要通信线路瘫痪。
修复
工程师们花了 9 个小时才使 AT&T 的系统完全恢复正常。他们主要是通过将交换机回滚到之前的代码工作版本来实现的。
实际上,软件工程师花了两周时间进行严格的代码阅读、测试和复制,才真正弄清了错误所在。
结论
对于 AT&T 来说,不幸的是,这还不是他们 90 年代最大的系统崩溃。在这十年的后期,他们还遇到了更多的问题。
今天的公司拥有更好的流程,但即便如此,还是会有漏洞漏网。谷歌撰写了一篇关于网站可靠性工程 20 年的精彩回顾文章,其中对 2016 年 YouTube 的首次全球故障进行了反思。
对于公司来说,故障的规模是巨大的,每次故障都会给我们带来教训。然而,对于大多数公司来说,故障归根结底是人为错误和流程漏洞造成的。
原文:https://engineercodex.substack.com/p/how-one-line-of-code-caused-a-60
转自:https://www.jdon.com/69737.htm

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Milvus 上新!全新 Range Search 功能,可精准控制搜索结果
Range Search 功能诞生于社区。 某天,一位做系统推荐的用户在社区提出了需求,希望 Milvus 能提供一个新功能,可以返回向量距离在一定范围之内的结果。而这不是个例,开发者在做相似性查询时,经常需要对结果做二次过滤。 为了帮助用户解决这一问题,Milvus 推出了全新功能—— Range Search(范围搜索)。本文将带各位详解这一新功能,包括 Range Search 的基本介绍、使用场景及其背后的技术细节。 01.什么是 Range Search? 顾名思义,Range Search 即范围搜索。不同于 KNN Search 返回最相似的 TOP-K 个结果,Range Search 会返回向量距离落于某一区间的 TOP-K 个结果。 那么,何时选择 Range Search 而非 Top-K 搜索? Range Search 最典型的应用场景就是推荐系统。比如商品推荐,一个好的推荐系统,返回的应该是与用户点击的商品有一定相似度,但又不太相似的结果。太相似或太不相似的推荐都会导致推荐效果不尽如人意。 在有 Range Search 功能之前,做推荐系统的用户只能先执行...
- 下一篇
从 JDK 11 升级到 JDK 17 的最全实践干货
1、前言 上篇文章给大家带来了JDK8升级JDK11的最全实践,相信大家阅读后已经对JDK11有了比较深入的了解。2021年9月14日,Oracle发布了可以长期支持的JDK17版本,那么从JDK11到JDK17,到底带来了哪些特性呢?亚毫秒级的ZGC效果到底怎么样呢?值得我们升级吗?而且升级过程会遇到哪些问题呢?带着这些问题,本篇文章将带来完整的JDK11升级JDK17最全实践。 2、为什么升级JDK17 1)长期支持版本 JDK17是Oracle官方在2021年9月14日发布的一个长期支持(LTS)版本,意味着它将获得长期的更新和支持,有助于保持程序的稳定性和可靠性。 2)性能提升 更好的垃圾回收器。综合评估,从Java 8 升级到 Java 11,**G1GC平均速度提升16.1%,ParallelGC为4.5%****,**从Java 11 升级到 Java 17,G1GC平均速度提升8.66%,ParallelGC为6.54%(基于OptaPlanner的用例基准测试表明) 最大的亮点是带来了稳定版的ZGC垃圾回收器,达到亚毫秒级停顿。 3)新语法和特性 Switch表达式简...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS关闭SELinux安全模块