因为我的一个低级错误,生产数据库崩溃了将近半个小时
前言 halo,相信大家一定过了一个很开心的端午节吧,我看朋友圈里各种晒旅游,晒美食的,真是羡慕啊,不像我,感冒了只能在家撸文章。 当然,玩的多开心,节后上班就有多郁闷,假日综合征可不是说说而已。对此我想表达的是,没事,不用郁闷,来看我如何自爆家丑来让你们开心下。 反常的sql语句 上周四午休时分,我正在工位上小憩,睡梦中仿佛看到了自己拿着李白在荣耀峡谷里大杀四方的情景,就在我刚拿完五杀准备带领队友推对面水晶的时候,一句慌乱急促的“糟了”把我从睡梦中惊醒。我眯开朦胧的双眼,才发现刚才的发声来源于我的组长庄哥,看到他在紧张的点开日志系统查看日志,我预感到有什么不妙的事情发生,仔细一问才知道,原来就在我眯眼的期间,线上数据库服务器的CPU被打满,同时触发了生产数据库只读延迟的限定时间并且发出告警,而且告警的过程持续了半个小时。 这让我倒吸了一口凉气,因为我们组做的系统很多都用的是同一个数据库服务器,日用户活跃量有好几十万,如果服务器崩溃了将会使所有的系统服务都不可用,于是我们赶紧通过sql日志进行问题查找,最后排查出来是因为一张sql的高量查询没有走索引导致,日志列表显示,这条sql语句的...