drds节点异常处理,docker节点进程一直重启
版本:
阿里云专有云v2版本
问题现象:
同步任务反馈drds无法连接数据库,经排查drds manager 发现有一个节点异常
排查过程:
向现场运维组反馈该异常后,为了确保生产环境的使用,确定通过drds manager进行白屏重启。点击重启后,无法返回成功界面,又强制重启,还是没有响应。
然后尝试通过命令行连接到该docker,显示连接失败,无法ping通该docker。
通过天目发现该docker所在的物理机报机器故障。通过天目登录到远程机房主机进行重启,依然显示连接异常。(期间是对这个docker重启了好几次)
最后针对物理机故障的问题向客户反馈维修,物理机正常之后发现该docker还是连接异常,通过天目发现报错为检测失败。
登录到该docker节点上发现,java进程一直被重新拉起。时有时无。
并且在该drds上的tddl目录下发现大



