一场灾难分析 - TCP Keepalive 对系统性能的影响
经常上 OSCHINA 的童鞋都知道,前几天 出了一次「怪事」,导致许多用户无法访问社区网站。今天就来盘点下到底发生了什么事情! 事故发生时的情况 话说当天 15:30分 左右收到 Nginx 告警信息(感谢运维童鞋的努力,让我们可以实时掌握系统运行情况),提示 Nginx Connection 数量超出常规设置。作为业界还算有点名声的网站,OSCHINA 社区网站流量突然飙升的情况可以说是家常便饭,一般情况下 Nginx Connection 超出我们设置的告警阀值之后,过段时间自然就会再回落(可能有些爬虫突然来访、或者部分善意的童鞋发送测试请求等)。所以,一开始并没有特别在意这个告警信息,只是等着「过段时间」即可。为了保证网站各项服务不出问题,我还是很小心的看了下集群中各个应用的情况 —— 一切正常如故。这时候,我也做好了准备,如果流量继续攀升导致服务收到影响的话,集群中的其他几台应用也要通过 upstream 开启分流模式,从而保证整站服务运行正常。 Nginx Connection 数量飙升 正在我犹豫是不是需要开启备用的其他几个应用分流时,突然又收到了 MySQL Conne...