B 站崩了,总结下「高可用」和「异地多活」
你好,我是悟空。 一、背景 不用想象一种异常场景了,这就真实发生了:B 站晚上 11 点突然挂了,网站主页直接报 404。 手机 APP 端数据加载不出来。 23:30 分,B 站做了降级页面,将 404 页面跳转到了比较友好的异常页面。 但是刷新下页面,又会跳转到 404 页面。 22:35 主页可以加载出数据了,但是点击动态还是会报 502 点击某个视频,直接报 404。 2021-07-14 02:00 之后 B 站开始逐渐恢复。 二、什么原因 今日凌晨 2 点,B 站发布公告称,昨晚,B 站的部分服务器机房发生故障,造成无法访问。技术团队随即进行了问题排查和修复,现在服务已经陆续恢复正常。而针对网友传言的 B 站大楼失火一事,上海消防官博进行了辟谣,B 站大楼并未出现火情。 看来 B 站的高可用并不令我们满意。接下来我们来探讨下什么是高可用以及跨机房部署的思路。本篇正文内容如下: 三、到底什么是高可用 经过了 2 个小时,B 站才开始逐渐恢复,那 B 站系统到底算不算高可用呢? 首先高可用是个相对的形容词。那什么是高可用呢? 3.1 高可用 高可用性(High Availabi...