Hadoop2.6.0配置参数查看小工具-低调大师

Hadoop2.6.0配置参数查看小工具

2016-04-20 575

前言

使用Hadoop进行离线分析或者数据挖掘的工程师，经常会需要对Hadoop集群或者mapreduce作业进行性能调优。也许你知道通过浏览器访问http://master:18088/conf来查看配置信息，如下图所示：

但是当Linux工程师们只面对命令行时，如何查看呢？而且如果运维工程师根据集群状况及运行历史使用shell、Python、ruby等脚本写些运维代码，甚至动态调整集群参数时，该怎么办呢？性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。在MySQL中可以通过以下命令查询参数值：

SHOW VARIABLES LIKE 'some_parameter'

也可以使用以下命令查询参数值：

SELECT @@session.some_parameter
SELECT @@global.some_parameter

或者直接查询information_schema.GLOBAL_VARIABLES得到参数值。

可惜的是Hadoop没有提供类似的方式，这对于在Linux系统下查看参数进而修改参数增加了成本和负担。尽管我们可以

本文将针对这一需求，基于Hadoop开发一个简单实用的工具查询查看各种参数。

准备工作

首先在Hadoop集群的Master节点的个人目录下创建workspace目录用于存储开发的Hadoop应用代码，命令如下：

mkdir workspace

进入workspace目录，开始编辑HadoopConfDisplay.java代码：

为便于大家使用，我把代码都列出来，这其实也是借鉴了网上别人的一些内容：

import java.util.Map.Entry;

import org.apache.hadoop.conf.*;
import org.apache.hadoop.util.*;

public class HadoopConfDisplay extends Configured implements Tool {

  static {
    Configuration.addDefaultResource("core-site.xml");
    Configuration.addDefaultResource("hdfs-site.xml");
    Configuration.addDefaultResource("mapred-site.xml");
    Configuration.addDefaultResource("yarn-site.xml");
  }

  @Override
  public int run(String[] args) throws Exception {
    Configuration conf = getConf();
    for (Entry<String, String> entry: conf) {
      System.out.printf("%s=%s\n", entry.getKey(), entry.getValue());
    }
    return 0;
  }

  public static void main(String[] args) throws Exception {
    int exitCode = ToolRunner.run(new HadoopConfDisplay(), args);
    System.exit(exitCode);
  }
}

在Hadoop的根目录下创建myclass，此目录用于存储个人开发的Hadoop应用代码编译后的class或者jar包。我本地的目录为/home/jiaan.gja/install/hadoop-2.6.0/myclass/

由于HadoopConfDisplay中使用了hadoop-common-2.6.0.jar中的类，所以编译HadoopConfDisplay.java时需要指定classpath。同时将编译后的class输出到/home/jiaan.gja/install/hadoop-2.6.0/myclass/目录下。执行命令如下：

进入myclass目录，将编译好的HadoopConfDisplay的class打到jar包里：

jar cvf mytest.jar *

执行过程如下：

成果验证

经过以上准备，最终我们生成了mytest.jar包文件，现在到了验证输出Hadoop配置参数的时候。输入以下命令：

hadoop jar mytest.jar HadoopConfDisplay

输出结果如下图：

由于参数的确很多，这里只展示了其中的一部分信息。这里显示的信息虽然很多，可是会发现很多参数并没有包括进来，比如：

mapreduce.job.ubertask.enable

mapreduce.job.ubertask.maxreduces

mapreduce.job.ubertask.maxmaps

完善

还记得本文刚开始说的通过web界面查看Hadoop集群参数的内容吗？我在我个人搭建的集群（有关集群的搭建可以参照《Linux下Hadoop2.6.0集群环境的搭建》）上访问http://master:18088/conf页面时，可以找到以上缺失的参数如下所示：

<configuration>
  <property>
    <name>mapreduce.job.ubertask.enable</name>
    <value>false</value>
    <source>mapred-default.xml</source>
  </property>
  <!-- 省略其它参数属性 -->
  <property>
    <name>mapreduce.job.ubertask.maxreduces</name>
    <value>1</value>
    <source>mapred-default.xml</source>
  </property>
  <!-- 省略其它参数属性 -->
  <property>
    <name>mapreduce.job.ubertask.maxmaps</name>
    <value>9</value>
    <source>mapred-default.xml</source>
  </property>
  <!-- 省略其它参数属性 -->
</configuration>

从以上内容我们可以看见缺失的参数都配置在 mapred-default.xml中，而我之前编写的HadoopConfDisplay类的代码中并未包含此配置。此外，未包括进来的配置文件还有yarn-default.xml、core-default.xml（说明Hadoop参数默认是从*-default.xml的几个文件中读取的）。最后我们将这些内容也编辑进去，代码如下：

import java.util.Map.Entry;

import org.apache.hadoop.conf.*;
import org.apache.hadoop.util.*;

public class HadoopConfDisplay extends Configured implements Tool {

  static {
    Configuration.addDefaultResource("core-default.xml");
    Configuration.addDefaultResource("yarn-default.xml");
    Configuration.addDefaultResource("mapred-default.xml");
    Configuration.addDefaultResource("core-site.xml");
    Configuration.addDefaultResource("hdfs-site.xml");
    Configuration.addDefaultResource("mapred-site.xml");
    Configuration.addDefaultResource("yarn-site.xml");
  }

  @Override
  public int run(String[] args) throws Exception {
    Configuration conf = getConf();
    for (Entry<String, String> entry: conf) {
      System.out.printf("%s=%s\n", entry.getKey(), entry.getValue());
    }
    return 0;
  }

  public static void main(String[] args) throws Exception {
    int exitCode = ToolRunner.run(new HadoopConfDisplay(), args);
    System.exit(exitCode);
  }
}

最后我们按照之前的方式编译打包为mytest.jar，再执行命令验证的结果如下图所示：

之前缺失的参数都出来了，呵呵！

这下大家可以愉快的进行性能调优了。

后记：个人总结整理的《深入理解Spark：核心思想与源码分析》一书现在已经正式出版上市，目前京东、当当、天猫等网站均有销售，欢迎感兴趣的同学购买。

京东(现有满150减50活动）)：http://item.jd.com/11846120.html

当当：http://product.dangdang.com/23838168.html

微信关注我们

原文链接：https://yq.aliyun.com/articles/632473

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MapReduce深度分析(一)

MapReduce深度分析(一) 一、数据流向分析图为MapReduce数据流向示意图步骤1、输入文件从HDFS流向到Mapper节点。在一般情况下，存储数据的节点就是Mapper运行的节点，不需要在节点之间进行数据传输，也就是尽量让存储靠近计算。步骤2、mapper输出到内存缓冲区。Mapper的输入是解析后的键值对，输出是经过处理后新的<key,value>键值对。mapper的输出并不是直接写到本地文件系统，而是先写入一个内存缓冲区，当缓冲区达到一定的阈值后就将缓冲区中的数据以一个临时文件的形式写入本地磁盘。partitioner就是发生在这个阶段，也就是在写入内存缓冲区的同时执行了partitioner对文件进行分区，以便后续对Reduce进行处理。步骤3、从内存缓冲区到磁盘。当缓冲区达到100M，溢写比例默认是0.8。从缓冲区写到本地磁盘的过程就是spill。溢写线程启动同时会对这80M的内存数据依据key进行排序，如果用户作业设置了Combiner，那么在写到磁盘之前，会对Map输出的键值对调用Combiner类做规约操作。目的是减少溢写到本地磁盘文件的...

2016-04-21

692

MapReduce深度分析(二) 五、JobTracker分析 JobTracker是hadoop的重要的后台守护进程之一，主要的功能是管理任务调度、管理TaskTracker、监控作业执行、运行作业容错机制等。首先启动interTrackerServer，将端口配置为mapred.job.tracker绑定的地址和端口。interTrackerServer提供两种用途：接收和处理TaskTracker的heartbeat请求，必须实现InterTrackerProtocol接口及协议。接收和处理JobClient请求，submitJob、killJob等，必须实现JobSubmissionProtocol接口及协议。其次启动一个infoServer，运行StatusHttpServer，提供web服务。最后，启动5个JobTracker子线程，各子线程功能如下： ExpireLaunchingTasks：用于停止那些未在超时内报告进度的Task ExpireTrackers：用于停止那些可能已经当掉的TaskTracker RetireJobs：用于清除那些已经完成很长时间...

2016-04-21

739

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。