OpenShift Master节点丢失, 集群恢复方法-低调大师

OpenShift Master节点丢失, 集群恢复方法

2021-04-16 1286

故障模拟：

模拟 2 个 master 节点 down，需要重装，直接关闭故障节点，事先已经备份过 etcd。

需要事先备份了 etcd数据，离线环境需要 image ：registry.redhat.io/rhel8/support-tools，否则不能启动 oc debug。

具体方法如下：

[root@bastion~]# oc debug node/master-1.offline.nielasaran.comsh-4.4# chroot /hostsh-4.4# /usr/local/bin/cluster-backup.sh/home/core/assets/backupsh-4.4# scp -r /home/core/assets/backup/ root@bastion:

1. 模拟故障关机后，可以看到 oc 超时

[root@bastion~]# oc get nodes Error from server (Timeout): the server was unable to return aresponse in the time allotted, but may still be processing the request (getnodes)

2. 把备份的 etcd 数据和 kubeconfig 证书 scp 过去，后面 master-2 要用 oc 命令并且需要管理员权限

[root@bastion~]# scp -r backup/ core@master-2:/home/core/ [root@bastion ~]# scp .kube/configcore@master-2:

3. 注意：如果只是丢了1个master 节点，意味着此时有 2 个 master 节点可用，这些内容需要在非恢复主机上做，也就是说，如果我计划把 master-2 主机作为恢复主机，以下操作请不要再 master-2 上做，文档原文，如果只剩1个恢复节点，做不做都行，反正后面恢复脚本会帮你把这个做了。

3.1 进入额外剩余的 controll plane node

[root@bastion ~]# ssh core@master-1

3.2 移除 etcd static pod，然后等 1 - 2 分钟

[core@master-1~]$ sudo mv /etc/kubernetes/manifests/etcd-pod.yaml /tmp

3.3 确定 etcd Pod 是否还在，如果还在继续等，等到没了为止

[core@master-1~]$ sudo crictl ps | grep etcd | grep -v operator

3.4 移除 kube-apiserver static pod，然后等 1 - 2 分钟

[core@master-1~]$ sudo mv /etc/kubernetes/manifests/kube-apiserver-pod.yaml /tmp

3.5 确保 api-server 停了

[core@master-1~]$ sudo crictl ps | grep kube-apiserver | grep -v operator

3.6 清理 etcd 目录

[core@master-1~]$ sudo mv /var/lib/etcd/ /tmp

4. 进入恢复用 master 节点，执行恢复脚本

[core@master-2~]$ sudo -E /usr/local/bin/cluster-restore.sh /home/core/backup
...stoppingkube-apiserver-pod.yaml...stopping kube-controller-manager-pod.yaml...stoppingkube-scheduler-pod.yaml...stopping etcd-pod.yamlWaiting for container etcd tostopcompleteWaiting for container etcdctl to stopcompleteWaiting for containeretcd-metrics to stopcompleteWaiting for container kube-controller-manager tostop.completeWaiting for container kube-apiserver to stopcompleteWaiting forcontainer kube-scheduler to stopcompletestarting restore-etcd staticpodstartingkube-apiserver-pod.yamlstatic-pod-resources/kube-apiserver-pod-4/kube-apiserver-pod.yamlstartingkube-controller-manager-pod.yamlstatic-pod-resources/kube-controller-manager-pod-6/kube-controller-manager-pod.yamlstartingkube-scheduler-pod.yamlstatic-pod-resources/kube-scheduler-pod-5/kube-scheduler-pod.yaml

5. 重启 kubelet 服务，如果只坏1 个master 节点，需要剩余2个 master 都重启

[core@master-1~]$ sudo systemctl restart kubelet.service

Warning: The unit file, source configurationfile or drop-ins of kubelet.service changed on disk. Run 'systemctldaemon-reload' to reload units.

6. 验证单 etcd 是否恢复

[core@master-2~]$ sudo crictl ps | grep etcd | grep -v operator 

00f72c57e27b9       621d5c808fe6847daf29bf02a1c47aef440f5ce4a08749cb8c7014a712565b6d   3 minutes ago        Running             etcd                                         0                   0db089710e5a4

7. 此时发现 oc 已经可以恢复使用

[core@master-2~]$ oc get nodes NAME

8. 查看 etcd 集群状况，目前只有一个 member，无需手动移除

$ oc get pods ‐n openshift‐etcd | grep etcd 查看[core@master‐2 ~]$ oc rsh etcd‐master‐2.offline.nielasaran.comsh‐4.4# etcdctl endpoint status ‐w table

9. 移除废弃的 master 节点

10. 重装 master node，装好之后，等 csr

#oc get csr ‐o name | xargs oc adm certificate approve

11. 检查集群状况，如果遇到不正常大概多等一会，测试环境10分钟恢复正常，根据集群规模可能时间会更长

检查节点状态，看是否都是一致的

上图所用cli：

[root@bastion ~]# oc get etcd ‐o=jsonpath='{range .items[0].status.conditions[?(@.type=="NodeInstallerProgressing")]}{.reason}{"\n"}{.message}{"\n"}'

[root@bastion ~]# oc get kubeapiserver ‐o=jsonpath='{range .items[0].status.conditions[?(@.type=="NodeInstallerProgressing")]}{.reason}{"\n"}{.message}{"\n"}'

[root@bastion ~]# oc get kubecontrollermanager ‐o=jsonpath='{range .items[0].status.conditions[?(@.type=="NodeInstallerProgressing")]}{.reason}{"\n"}{.message}{"\n"}'

[root@bastion ~]# oc get kubescheduler ‐o=jsonpath='{range .items[0].status.conditions[?(@.type=="NodeInstallerProgressing")]}{.reason}{"\n"}{.message}{"\n"}

微信关注我们

原文链接：https://blog.51cto.com/u_15127570/2710198

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

phpstorm配置xdebug 3.0最新教程

今天看到一篇写得挺详细的文章，心血来潮又折腾了下，可惜没成功。验证始终说我配置错误后面去阅读官方的文档，修改了些配置，居然搞成功了！！nice 原因是在xdebug 3版本里，有些xdebug配置信息被丢弃或者更改了。网上大部分的配置信息又都是以前的，难怪怎么配置都不成功。比如以前的ip配置，端口配置 xdebug.remote_hostxdebug.remote_port 现在改成了 xdebug.client_hostxdebug.client_port 怪不得一直连不上，配置名都改了，根本就没读取到我们的参数。。最后我去官网看配置介绍，根据大家以前写的配置照葫芦画瓢写了份新的配置。限于我能力有限，这份配置还有许多不足之处，若遇到有问题请反馈给我。平台环境 windows 10 2004 64位phpstorm 2021phpstudyphp版本: 7.4.3 配置流程下载xdebug对应版本的dll文件配置网站配置php.ini 配置phpstorm 验证连接安装浏览器调试插件 1、下载xdebug对应版本的dll文件点开下面这个网址https://xdebug...

2021-04-16

608

单例可以说是最简单的一个设计模式了，单例模式要求只能创建一个对象实例。通常的写法是声明私有的构造函数，提供静态方法获取单例的对象实例。常见的单例写法就是饿汉式、懒汉式、双重加锁验证、静态内部类和枚举的方式，写法可能大家都知道，不过针对不同的写法还是有可以继续深挖一下的地方，让我们从最简单的几种写法开始回顾单例，不想看前面的话直接往后翻好了。回顾几种实现方式饿汉式饿汉式的写法通常静态成员变量已经是初始化好的，优点是可以不加锁就获取到对象实例，线程安全，主要的缺点在于不是延加载，稍微存在内存的浪费，因为如果初始化的逻辑较为复杂，比如存在网络请求或者一些复杂的逻辑在内，就会产生内存的浪费。懒汉式懒汉式的写法解决了饿汉式浪费内存的问题，在真正需要获取实例对象的才去执行初始化。通常一般来说可能会有两种方式，第一种就是不加锁的写法，很显然这样是肯定不行的，正常的方式一般都是通过同步锁的方式加锁获取实例对象。但是这种实现方式在之前的JDK版本synchronized没有锁优化的情况每次获取单例对象性能存在很大的问题，于是乎有了DCL的写法。双重加锁验证DCL 于是为了解决懒汉式性能...

2021-04-16

538

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。