Hadoop2.6.0配置参数查看小工具
前言
使用Hadoop进行离线分析或者数据挖掘的工程师,经常会需要对Hadoop集群或者mapreduce作业进行性能调优。也许你知道通过浏览器访问http://master:18088/conf来查看配置信息,如下图所示:
但是当Linux工程师们只面对命令行时,如何查看呢?而且如果运维工程师根据集群状况及运行历史使用shell、Python、ruby等脚本写些运维代码,甚至动态调整集群参数时,该怎么办呢?性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。在MySQL中可以通过以下命令查询参数值:
SHOW VARIABLES LIKE 'some_parameter'
也可以使用以下命令查询参数值: SELECT @@session.some_parameter SELECT @@global.some_parameter
或者直接查询information_schema.GLOBAL_VARIABLES得到参数值。 可惜的是Hadoop没有提供类似的方式,这对于在Linux系统下查看参数进而修改参数增加了成本和负担。尽管我们可以
本文将针对这一需求,基于Hadoop开发一个简单实用的工具查询查看各种参数。
准备工作
首先在Hadoop集群的Master节点的个人目录下创建workspace目录用于存储开发的Hadoop应用代码,命令如下:
mkdir workspace
进入workspace目录,开始编辑HadoopConfDisplay.java代码:
为便于大家使用,我把代码都列出来,这其实也是借鉴了网上别人的一些内容:
import java.util.Map.Entry; import org.apache.hadoop.conf.*; import org.apache.hadoop.util.*; public class HadoopConfDisplay extends Configured implements Tool { static { Configuration.addDefaultResource("core-site.xml"); Configuration.addDefaultResource("hdfs-site.xml"); Configuration.addDefaultResource("mapred-site.xml"); Configuration.addDefaultResource("yarn-site.xml"); } @Override public int run(String[] args) throws Exception { Configuration conf = getConf(); for (Entry<String, String> entry: conf) { System.out.printf("%s=%s\n", entry.getKey(), entry.getValue()); } return 0; } public static void main(String[] args) throws Exception { int exitCode = ToolRunner.run(new HadoopConfDisplay(), args); System.exit(exitCode); } }
在Hadoop的根目录下创建myclass,此目录用于存储个人开发的Hadoop应用代码编译后的class或者jar包。我本地的目录为/home/jiaan.gja/install/hadoop-2.6.0/myclass/
由于HadoopConfDisplay中使用了hadoop-common-2.6.0.jar中的类,所以编译HadoopConfDisplay.java时需要指定classpath。同时将编译后的class输出到/home/jiaan.gja/install/hadoop-2.6.0/myclass/目录下。执行命令如下:
进入myclass目录,将编译好的HadoopConfDisplay的class打到jar包里:
jar cvf mytest.jar *
执行过程如下: 成果验证
经过以上准备,最终我们生成了mytest.jar包文件,现在到了验证输出Hadoop配置参数的时候。输入以下命令:
hadoop jar mytest.jar HadoopConfDisplay
输出结果如下图: 由于参数的确很多,这里只展示了其中的一部分信息。这里显示的信息虽然很多,可是会发现很多参数并没有包括进来,比如:
mapreduce.job.ubertask.enable
mapreduce.job.ubertask.maxreduces
mapreduce.job.ubertask.maxmaps
完善
还记得本文刚开始说的通过web界面查看Hadoop集群参数的内容吗?我在我个人搭建的集群(有关集群的搭建可以参照《Linux下Hadoop2.6.0集群环境的搭建》)上访问http://master:18088/conf页面时,可以找到以上缺失的参数如下所示:
<configuration> <property> <name>mapreduce.job.ubertask.enable</name> <value>false</value> <source>mapred-default.xml</source> </property> <!-- 省略其它参数属性 --> <property> <name>mapreduce.job.ubertask.maxreduces</name> <value>1</value> <source>mapred-default.xml</source> </property> <!-- 省略其它参数属性 --> <property> <name>mapreduce.job.ubertask.maxmaps</name> <value>9</value> <source>mapred-default.xml</source> </property> <!-- 省略其它参数属性 --> </configuration>
从以上内容我们可以看见缺失的参数都配置在 mapred-default.xml中,而我之前编写的HadoopConfDisplay类的代码中并未包含此配置。此外,未包括进来的配置文件还有yarn-default.xml、core-default.xml(说明Hadoop参数默认是从*-default.xml的几个文件中读取的)。最后我们将这些内容也编辑进去,代码如下:
import java.util.Map.Entry; import org.apache.hadoop.conf.*; import org.apache.hadoop.util.*; public class HadoopConfDisplay extends Configured implements Tool { static { Configuration.addDefaultResource("core-default.xml"); Configuration.addDefaultResource("yarn-default.xml"); Configuration.addDefaultResource("mapred-default.xml"); Configuration.addDefaultResource("core-site.xml"); Configuration.addDefaultResource("hdfs-site.xml"); Configuration.addDefaultResource("mapred-site.xml"); Configuration.addDefaultResource("yarn-site.xml"); } @Override public int run(String[] args) throws Exception { Configuration conf = getConf(); for (Entry<String, String> entry: conf) { System.out.printf("%s=%s\n", entry.getKey(), entry.getValue()); } return 0; } public static void main(String[] args) throws Exception { int exitCode = ToolRunner.run(new HadoopConfDisplay(), args); System.exit(exitCode); } }
最后我们按照之前的方式编译打包为mytest.jar,再执行命令验证的结果如下图所示:
之前缺失的参数都出来了,呵呵!
这下大家可以愉快的进行性能调优了。
后记:个人总结整理的《深入理解Spark:核心思想与源码分析》一书现在已经正式出版上市,目前京东、当当、天猫等网站均有销售,欢迎感兴趣的同学购买。
京东(现有满150减50活动)):http://item.jd.com/11846120.html
当当:http://product.dangdang.com/23838168.html

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
MapReduce深度分析(一)
MapReduce深度分析(一) 一、数据流向分析 图为MapReduce数据流向示意图 步骤1、输入文件从HDFS流向到Mapper节点。在一般情况下,存储数据的节点就是Mapper运行的节点,不需要在节点之间进行数据传输,也就是尽量让存储靠近计算。 步骤2、mapper输出到内存缓冲区。Mapper的输入是解析后的键值对,输出是经过处理后新的<key,value>键值对。mapper的输出并不是直接写到本地文件系统,而是先写入一个内存缓冲区,当缓冲区达到一定的阈值后就将缓冲区中的数据以一个临时文件的形式写入本地磁盘。partitioner就是发生在这个阶段,也就是在写入内存缓冲区的同时执行了partitioner对文件进行分区,以便后续对Reduce进行处理。 步骤3、从内存缓冲区到磁盘。当缓冲区达到100M,溢写比例默认是0.8。从缓冲区写到本地磁盘的过程就是spill。溢写线程启动同时会对这80M的内存数据依据key进行排序,如果用户作业设置了Combiner,那么在写到磁盘之前,会对Map输出的键值对调用Combiner类做规约操作。目的是减少溢写到本地磁盘文件的...
- 下一篇
MapReduce深度分析(二)
MapReduce深度分析(二) 五、JobTracker分析 JobTracker是hadoop的重要的后台守护进程之一,主要的功能是管理任务调度、管理TaskTracker、监控作业执行、运行作业容错机制等。 首先启动interTrackerServer,将端口配置为mapred.job.tracker绑定的地址和端口。interTrackerServer提供两种用途: 接收和处理TaskTracker的heartbeat请求,必须实现InterTrackerProtocol接口及协议。 接收和处理JobClient请求,submitJob、killJob等,必须实现JobSubmissionProtocol接口及协议。 其次启动一个infoServer,运行StatusHttpServer,提供web服务。 最后,启动5个JobTracker子线程,各子线程功能如下: ExpireLaunchingTasks:用于停止那些未在超时内报告进度的Task ExpireTrackers:用于停止那些可能已经当掉的TaskTracker RetireJobs:用于清除那些已经完成很长时间...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS6,CentOS7官方镜像安装Oracle11G
- Mario游戏-低调大师作品
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7