hadoop日常运维白皮书-低调大师

hadoop日常运维白皮书

2019-09-26 707

hadoop日常运维与升级总结

▲集群健康检查
hdfs fsck / 进行文件系统健康检查，是否有块丢失，如何处理？
hdfs fsck 也可以用来查看你关心的某些文件的块的分布情况。
Hdfs fsck /path –files –blocks –locations 可以显示详细的文件，block位置等信息。
Datanodes 是否有死的节点，有可能进程还在但是状态是不正常的。
ResourceManager的管理页面上观察是否有lost的nodemanager节点，查找原因，解决。
进程日志文件检查：检查其中频繁出现的异常，从warn级别的信息中往往能发现出现异常错误的原因，搜索查找原因，修改配置文件或做其他的调整。

▲新增节点
硬件安装
1）操作系统本身的安装，关闭防火墙，selinux
2）修改limits.conf sysctl.conf 保持一致
3）创建hadoop用户
4）生成ssh无密钥访问
Root: 直接拷贝其他系统的.ssh文件夹整个集群使用一个
Hadoop:生成密钥分发到某一固定节点，如namenode
最后从含有完整公钥的机器上把authorizedkeys 重新分发到各节点一份

5）修改主机名与集群保持一致，
sed –i 's/HOSTNAME=.*/HOSTNAME=dn1' /etc/sysconfig/network

6）修改/etc/hosts
这个也可以在namenode上进行，配置好新增节点的ip信息，在ssh配好后，
可以直接分发到所有节点，不仅是新增节点。

7）同步文件
假设这个节点上只运行datanode,nm之类的
从已有节点同步jdk,hadoop到相同的目录(不用复制hadoop的日志文件，太大无用)
(rsync –v nn1:/app/cdh23502/ /app)
从已有节点复制 .bash_profile文件到新节点，并且source .bash_profile使之生效
测试 java –version 和 hadoop version 是否正常工作

8）测试本地库是否正常
Hadoop checknative
如果没有安装本地库压缩请安装相应程序
创建数据盘的根目录，并把此权限赋给hadoop用户

9）在nn1上修改etc/hadoop/slaves，在里面添加新增的节点hostname.
修改机架感知信息，一般是在一个文本文件里面，通过python加载，修改完成分发。
在新增节点上启动datanode,nodemanager等进程

10）通过 hdfs dfsadmin –report 或在webui 上观察datanode是否向namenode注册成功。
必要的时候运行：hadoop dfsadmin -refreshNodes

▲平衡数据
Start-balancer.sh
Hdfs balancer –help
Hdfs balancer –threshold 5
Hdfs-site.xml
dfs.datanode.balance.bandwidthPerSec：1m
dfs.datanode.balance.max.concurrent.moves :5
要理解数据平衡的基本原理，根据threshold计算集群点节点存储是否平衡，然后迭代进行移动，至到达到相对平衡，然后进程自动退出。

▲删除节点
如果需要主动把所在节点的数据转移，则建议使用：
先在配置的excludes文件中添加要删除的节点，然后执行下面命令
hadoop dfsadmin –refreshNodes
网上有资料表明，有同学使用这种方式进行数据的转移，在节点的磁盘被使用殆尽的情况下，平衡进程太慢，节点退役反而很快，退役后格式化磁盘，然后加回来，加快了数据的平衡处理。

▲处理磁盘问题

在大的hadoop生产集群中，每一台机器都会配置多块硬盘，而硬盘的损坏也是常态，如何让硬盘的损坏不影响正常的生产呢？
如果在hdfs-site.xml中把 dfs.datanode.failed.volumes.tolerated 设置为 大于0的数字，则datanode 允许配置的磁盘有配置数量的损坏。
否则，如果配置为0 ，若发生了磁盘的损坏，Datanode进程会shutdown.
如果我们不想datanode进程自动关闭，可以合理配置dfs.datanode.failed.volumes.tolerated
然后从日志监控中发现有磁盘发生损坏的情况发生，我们可以修改hdfs-site.xml中dfs.datanode.data.dir 的配置，
去掉坏掉的盘，然后执行
hdfs dfsadmin -reconfig datanode dnxx:50020 start
hdfs dfsadmin -reconfig datanode dnxx:50020 status
之类的，让datanode在线更新配置
换上新盘后，再刷新一下配置即可。
这样不用关闭Datanode进程。如果是低版本的，可以直接把发生问题的磁盘路径从配置的dfs.data.dir从去掉，然后启动datanode进程，然后修好后再加回来，重启datanode进程。
也可以调整 容错的数量，dfs.datanode.failed.volumes.tolerated，思路是一样的，只是低版本的是需要重启动datanode进程。

▲处理长时间不能完成的任务
mapred job -fail-task
mapred job -kill-task
两者的不同，前者把任务失败掉，这个任务就不会再分配给这个节点运行，而kill的task则还可能会分给这个节点运行，而且fail-task的过多，这个节点会被加入黑名单。

▲升级
升级有风险，cdh之间小版本的升级可能不需要修改hdfs的元数据，只需要替换应用包即可。如果是大版本的升级，则需要升级hdfs文件的元数据。
今天主要说一下hadoop的升级，在生产中，我们一起升级套件，如hive和hbase等，这时候需要和开发人员多交流，我之前做开发有过经历，项目中写的hive语句与调用方式在一次hive的升级后变得不可用，需要花一段时间进行调整。
以下的链接记录了我做的升级实验，hadoop2.35.0.2升级到hadoop2.6cdh5.5 .
原因，使用hadoop2.35.0.2 ，而且有新集群已经部署,hadoop2.6.
两台机器，nn1,nn2搭建的ha,同时又担任nn,dn,rm,nm,jn,zkfc,zk等职能。
以下是升级回滚再升级的记录。仅供参考，同时参考了cdh官网的说明，官网主要是使用CM的。
1 官网上下载hadoop2.6cdh5.5.tar包和hadoop的rpm包
rpm2cpio hadoop.rpm | cpio –div
可以从里面找到我们需要的native的文件。
2 复制原cdh下的etc/下的所有文件到hadoop2.6下的etc/hadoop
3 进入安全模式，生成fsimage文件，并备份整个metadata 文件夹
hdfs dfsadmin -safemode enter
hdfs dfsadmin –saveNamespace
cd /hdp/dfs/name
tar -cvf nn_backup_data.tar .

关停所有相关的进程
stop-all.sh

stop-hbase.sh
ps -aef | grep java
5 纷发新的文件到其他节点
6 修改.bash_profile（根据你自己的配置）把HADOOP_HOME 指向新的目录
并纷发到所有机器上，并加载这个文件使其生效。
7 先启动jn 然后升级hdfs metadata
hadoop-daemons.sh start journalnode
hdfs namenode -upgrade
hadoop-daemons.sh start datanode
根据你的block的数量情况，但是一般会很快的。我这边遇到的情况下，一直会报：缓存管理器在扫描之类的日志，好像是bug.不影响升级。
8 回滚
升级后,namenode ，journalnode和datanode下面的相关version等文件有变动.回滚的操作如下：
先操作journalnode的：
可以直接进入journalnode配置目录下，把current的改成new,把previous的改成current.
或执行
hadoop-daemons.sh start journalnode -rollback（未尝试）
hdfs namenode –rollback
hadoop-daemons.sh start datanode –rollback
9升级后测试
pdsh -w nn1,nn2 "source /home/student/.bash_profile; zkServer.sh start"
在nn2上，hdfs namenode –bootstrapStandby
同步新生成的fsimage
start-dfs.sh
start-yarn.sh
hadoop jar /app/cdh26550/share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.5.0.jar wordcount pi 10 100

▲问题处理
问题归类
1．个人操作：错误的判断所做的操作或误操作
2．错误配置:35%的问题都是因为错误或不合理的配置引发的
一定要深入理解配置参数的含义，要根据自己集群的情况定制，不是放之四海而皆准的固定的答案。
操作系统级别的配置
Hadoop/hdfs/yarn本身的配置 (内存参数等)
3．硬件错误（常见硬盘错误）
4．资源耗尽（nodemanager 健康检查报告）
方法论
1．查看出现问题进程日志文件（$HADOOP_HOME/logs）
2． Dump相关进程，查看进程栈相关代码
Javacore 文件中也有当前栈的信息可供分析
3．查看系统信息/var/log/messages 或 dmesg 查看是否有显示相关错误，如硬件错误或文件系统的错误
如果是map/reduce任务的错误，查看相关的输出stdout,syslog,syserr中可以找到相关根本的原因。(class not found …)

微信关注我们

原文链接：https://yq.aliyun.com/articles/719483

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop机架感知（rack-aware)配置指南

Hadoop机架感知（rack-aware)配置副本的存放策略又是HDFS实现高可靠性和搞性能的关键，优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知（rack-aware）的策略来改进数据的可靠性、可用性和网络带宽的利用率。大型HDFS实例一般运行在跨越多个机架的计算机组成的机群上，不同机架（rack）上的两台机器之间的通信需要经过交换机，这样会增加数据传输的成本。在大多数情况下，同一机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大（当前网络一般可以改造到不是瓶颈了）。一方面，通过一个机架感知的过程，NameNode可以确定每个DataNode所属的机架ID。目前HDFS采用的策略就是将副本存放在不同的机架上，这样可以有效防止整个机架失效时数据的丢失，并且允许读数据的时候充分利用多个机架的带宽（直接提高hadoop的IO磁盘性能）。这种策略设置可以将副本均匀地分布在集群中，有利于组织失效情况下的负载均衡。但是，因为这种策略的一个写操作需要传输数据块到多个机架，这增加了写操作的成本。另一方面，在读取数据时，为了减少整体的带...

2019-09-26

772

Apache Spark Delta Lake 删除使用及实现原理代码解析 Delta Lake的 Delete 功能是由 0.3.0 版本引入的。在介绍 ApacheSpark Delta Lake实现逻辑之前，我们先来看看如何使用 delete 这个功能。 Delta Lake删除使用 Delta Lake 的官方文档为我们提供如何使用 Delete 的几个例子，参见这里，如下： import io.delta.tables._ val iteblogDeltaTable = DeltaTable.forPath(spark, path) // 删除 id 小于 4 的数据 iteblogDeltaTable.delete("id <= '4'") import org.apache.spark.sql.fu

2019-09-26

887

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。