您现在的位置是:首页 > 文章详情

0023-HOSTS配置问题导致集群异常故障分析

日期:2018-11-19点击:434

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.问题现象

Hadoop集群HDFS、YARN、Hive等服务出现异常告警

重启集群异常告警任然存在大量告警

Cluster 1

HDFS

可用空间抑制...

NameNode 运行状况抑制...
HDFS 金丝雀抑制...

DataNode (ip-172-31-10-118) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-5-190) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-9-33) 日志文件

NameNode 连接抑制...

Hive Metastore Server (ip-172-31-6-148) 日志文件

Hive Metastore Canary 抑制...

Impala Daemon (ip-172-31-10-118) 日志文件

进程状态抑制...

Impala Daemon (ip-172-31-5-190) 日志文件

进程状态抑制...

Impala Daemon (ip-172-31-9-33) 日志文件

进程状态抑制...

NameNode (ip-172-31-6-148) 日志文件

安全模式状态抑制...

Server (ip-172-31-5-190) 日志文件

Quorum 成员资格抑制...

Zookeeper服务“Quorum 成员资格”告警

CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

2.问题复现

集群环境:

  • CDH5.12.0
  • 集群服务(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)

1.还原现场配置,所有服务器hosts配置文件配置

127.0.0.1 ip-172-31-10-156.ap-southeast-1.compute.internal 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal 172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal 172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal 172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置为多出的异常配置。

在主机上ping自己的hostname显示

2.重启集群服务

CM出现如下大量告警

Cluster 1 HDFS 可用空间抑制... NameNode 运行状况抑制... HDFS 金丝雀抑制... DataNode (ip-172-31-10-118) 日志文件 NameNode 连接抑制... DataNode (ip-172-31-5-190) 日志文件 NameNode 连接抑制... DataNode (ip-172-31-9-33) 日志文件 NameNode 连接抑制... Hive Metastore Server (ip-172-31-6-148) 日志文件 Hive Metastore Canary 抑制... HiveServer2 (ip-172-31-6-148) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-10-118) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-5-190) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-9-33) 日志文件 进程状态抑制... NameNode (ip-172-31-6-148) 日志文件 安全模式状态抑制... Server (ip-172-31-5-190) 日志文件 Quorum 成员资格抑制... ip-172-31-10-118 代理状态抑制... ip-172-31-5-190 代理状态抑制... ip-172-31-9-33 代理状态抑制...

Zookeeper与现场告警一致,且Zookeeper服务如下状态

在查看CM节点的日志出现如下异常“Connection refused”

Host列表监控状态

3.问题原因

集群在运行正常的情况下,所有节点的hosts文件被修改为127.0.0.1导致

4.解决方法

修改所有节点的hosts文件,将127.0.0.1行配置注释

重启集群服务恢复正常;

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。


原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文链接:https://yq.aliyun.com/articles/672022
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章