记一次 Kubernetes 网络故障深度追踪
作者:骆冰利,端点技术专家 某天晚上,客户碰到了 K8S 集群一直扩容失败,所有的节点都无法正常加入集群。在经过多番折腾无解后,反馈到我们这里进行技术支持。这个问题的整个排查过程比较有意思,所以对其中的排查思路和用到的方法进行整理分享。 问题现象 运维同学在对客户的 K8S 集群进行节点扩容时,发现新增的节点一直添加失败。该同学进行了初步的排查如下: 在新增节点上,访问 k8s master service vip 网络不通; 在新增节点上,直接访问 k8s master hostIP + 6443 网络正常 在新增节点上,访问其他节点的容器 IP 可以正常 ping 通 在新增节点上,访问 coredns service vip 网络正常; 该客户使用的 Kubernetes 版本是 1.13.10,宿主机的内核版本是 4.18(centos 8.2)。 问题排查过程 收到该一线同事的反馈,我们已经初步怀疑是 ipvs 的问题。根据以往网络问题排查的经验,先对现场做了些常规排查: 确认内核模块 ip_tables 是否加载(正常) 确认 iptable forward 是否默认 ac...
