0023-HOSTS配置问题导致集群异常故障分析
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
1.问题现象
Hadoop集群HDFS、YARN、Hive等服务出现异常告警
重启集群异常告警任然存在大量告警
Cluster 1
HDFS
可用空间抑制...
NameNode 运行状况抑制...
HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118) 日志文件
NameNode 连接抑制...
DataNode (ip-172-31-5-190) 日志文件
NameNode 连接抑制...
DataNode (ip-172-31-9-33) 日志文件
NameNode 连接抑制...
Hive Metastore Server (ip-172-31-6-148) 日志文件
Hive Metastore Canary 抑制...
Impala Daemon (ip-172-31-10-118) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-5-190) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-9-33) 日志文件
进程状态抑制...
NameNode (ip-172-31-6-148) 日志文件
安全模式状态抑制...
Server (ip-172-31-5-190) 日志文件
Quorum 成员资格抑制...
Zookeeper服务“Quorum 成员资格”告警
CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:
2.问题复现
集群环境:
- CDH5.12.0
- 集群服务(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)
1.还原现场配置,所有服务器hosts配置文件配置
127.0.0.1 ip-172-31-10-156.ap-southeast-1.compute.internal 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal 172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal 172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal 172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal
配置中的第一行配置为多出的异常配置。
在主机上ping自己的hostname显示
2.重启集群服务
CM出现如下大量告警
Cluster 1 HDFS 可用空间抑制... NameNode 运行状况抑制... HDFS 金丝雀抑制... DataNode (ip-172-31-10-118) 日志文件 NameNode 连接抑制... DataNode (ip-172-31-5-190) 日志文件 NameNode 连接抑制... DataNode (ip-172-31-9-33) 日志文件 NameNode 连接抑制... Hive Metastore Server (ip-172-31-6-148) 日志文件 Hive Metastore Canary 抑制... HiveServer2 (ip-172-31-6-148) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-10-118) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-5-190) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-9-33) 日志文件 进程状态抑制... NameNode (ip-172-31-6-148) 日志文件 安全模式状态抑制... Server (ip-172-31-5-190) 日志文件 Quorum 成员资格抑制... ip-172-31-10-118 代理状态抑制... ip-172-31-5-190 代理状态抑制... ip-172-31-9-33 代理状态抑制...
Zookeeper与现场告警一致,且Zookeeper服务如下状态
在查看CM节点的日志出现如下异常“Connection refused”
Host列表监控状态
3.问题原因
集群在运行正常的情况下,所有节点的hosts文件被修改为127.0.0.1导致
4.解决方法
修改所有节点的hosts文件,将127.0.0.1行配置注释
重启集群服务恢复正常;
醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
分布式图数据库JanusGraph-简介
JanusGraph设计的目的是处理大图,单机无论是在存储和计算能力上都无法满足大图处理。大规模图实时计算和分析是JanusGraph最基本的优势。本节将讨论更多JanusGraph特有的优势以及它底层支持的存储方案。 转自:JanusGraph中文翻译文档 1.1. JanusGraph 基本优势 支持非常大的图。JanusGraph通过添加机器横向扩展集群。 支持很大的并发事务处理和图操作处理。通过添加机器横向扩展JanusGraph的事务处理能力,可以在毫秒级别相应大图的复杂查询。 支持使用Hadoop框架进行全局图分析和批量图处理。 支持在很大的图上对顶点和边进行地理位置、数值范围、全文搜索。 原生支持Apache TinkerPop 描述的当前流行的属性图数据模型。 原生支持图遍历语言Gremlin。 通过使用非编程的方式连接很容易与Gremlin Server集成 提供了很多图级别配置选项用于调节性能。 以顶点为中心的索引提供顶点级查询,以缓解臭名昭着的超级节点问题。 提供优化的磁盘表示,从而允许有效地使用存储和访问速度。 基于Apache 2 许可协议开放源码。 1.2....
- 下一篇
[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数
[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数 本文翻译自databricks的介绍spark2.4新特性的blog,英文原文参考原文链接 Apache Spark2.4总共支持了29个用于处理复杂数据类型(比如,数组类型等)的新内置函数和高阶函数。 在Spark2.4版本之前,有两种典型的方式处理复杂数据类型: 将嵌套结构的数据转化为多行数据,然后使用函数处理,最后再组装成嵌套结构。 自己构建一个UDF。 和之前不同,新的内置函数可以直接操作复杂数据类型,同时新的高阶函数可以使用匿名的lambda函数处理复杂数据类型,和UDF类似,但是性能大大提高。 在本篇文章,我们将通过一些示例展示部分内置函数以及它们的具体用法。 典型的处理方式 我们首先来看一下Spark2.4以前典型的处理方式。 选择1 - Explode and C
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8编译安装MySQL8.0.19
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7