三台PC服务器部署Hadoop HA（Hadoop 高可用性架构）

2016-08-29 662 89

写在前边的话：

转载请注明出处：@http://blog.csdn.net/gamer_gyt，Thinkagmer 撰写

之前是在自己电脑上部署的hadoop集群，但并未涉及到HA配置，这次将集群迁移到PC服务器，但是问题来了，只有三台，但是我还想配置HA，PC服务器是CentOS6.5，原来想着在上边部署VM，从而部署HA集群，但经测试，未果，遂弃之，就想到了在三台机器上部署HA集群。

hadoop伪分布部署参考：点击打开链接
hadoop单机版部署参考：点击打开链接
zookeeper,hive,hbase的分布式部署参考：点击链接
Spark，Sqoop，Mahout的分布式部署参考：点击链接

步骤和部署hadoop集群（点击阅读）是一样的，只是这里加入了HA的一些配置，记录如下

关于HA架构的知识请移步该篇博客：Hadoop 容错之1.X的单点故障到 2.X的HA和HDFS Federation

一：架构说明

IP hostname role

192.168.132.27 master1 主节点

192.168.132.28 master2 备份主节点

192.168.132.29 slaver1 从节点

zookeeper的三个节点集群，部署在这三台机子上

二：部署Zookeeper

Hadoop HA的部署依赖于ZK来切换主节点，所以在部署Hadoop HA之前需要先把Zookeeper集群搞定，部署参考：点击阅读

三：部署HA

1：文件配置

除了配置文件mapred-site.xml，core-site.xml，hdfs-site.xml，yarn-site.xml之外和hadoo集群部署一样，这里不做陈述，可参考：点击阅读

mapred-site.xml：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

core-site.xml：

<configuration>
  <!-- 指定hdfs的nameservice为ns -->
  <property>    
      <name>fs.defaultFS</name>    
      <value>hdfs://master</value>    
      <!--1.x中为fs.default.name， 一定得是namenode的hostname或者 ip，并且不用加端口号（这里的名称与HA配置hdfs-site.xml中的dfs.nameservices必须保持一致） -->  
  </property>
 
  <property>  
    <name>hadoop.tmp.dir</name>  
    <value>/opt/bigdata/hadoop/tmp</value>  
    <!-- 指定hadoop临时目录 -->
  </property>   

  <!-- 配置HA时才用配置该项 -->
  <property>
    <name>ha.zookeeper.quorum</name>
    <value>master1:2181,master2:2181,slaver1:2181</value>
    <!--各个ZK节点的IP/host，及客户端连接ZK的端口，该端口需与zoo.cfg中的 clientPort一致！ -->
  </property>
</configuration>

hdfs-site.xml：

<configuration>
<property>  
    <name>dfs.replication</name>  
    <value>2</value>  
  </property>  
  <property>  
    <name>dfs.namenode.name.dir</name>  
    <value>file:///opt/bigdata/hadoop/dfs/name</value>  
  </property>  
  <property>  
    <name>dfs.datanode.data.dir</name>  
    <value>file:///opt/bigdata/hadoop/dfs/data</value>  
  </property>  
  <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
    <!-- 在NN和DN上开启WebHDFS (REST API)功能,不是必须 --> 
  </property>

  <!-- HA配置需要加如下配置-->
  <property>
    <name>dfs.nameservices</name>
    <value>master</value>
    <!--给hdfs集群起名字，这个名字必须和core-site中的统一，且下面也会用到该名字，需要和core-site.xml中的保持一致 -->
  </property>

  <property>
    <name>dfs.ha.namenodes.master</name>
    <value>nn1,nn2</value>
    <!-- master1下面有两个NameNode，分别是nn1，nn2,指定NameService是cluster1时的namenode有哪些，这里的值也是逻辑名称，名字随便起，相互不重复即可 -->
  </property>

  <property>
    <name>dfs.namenode.rpc-address.master.nn1</name>
    <value>master1:9000</value>
    <!-- nn1的RPC通信地址 -->
  </property>

  <property>
    <name>dfs.namenode.rpc-address.master.nn2</name>
    <value>master2:9000</value>
    <!-- nn2的RPC通信地址 -->
  </property>

  <property>
    <name>dfs.namenode.http-address.master.nn1</name>
    <value>master1:50070</value>
    <!-- nn1的http通信地址 -->
  </property>
  <property>
    <name>dfs.namenode.http-address.master.nn2</name>
    <value>master2:50070</value>
    <!-- nn2的http通信地址 -->
  </property>

  <property>
    <name>dfs.namenode.servicerpc-address.master.nn1</name>
    <value>master1:53310</value>
  </property>

  <property>
    <name>dfs.namenode.servicerpc-address.master.nn2</name>
    <value>master2:53310</value>
  </property>

  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://master1:8485;master2:8485;slaver1:8485/master</value>
    <!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
  </property> 

  <property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/opt/bigdata/hadoop/dfs/jndata</value>
    <!-- 指定JournalNode在本地磁盘存放数据的位置 -->
  </property>

  <property>
    <name>dfs.ha.automatic-failover.enabled</name>  
    <value>true</value>
    <!-- 开启NameNode失败自动切换 -->
  </property>

  <property>
    <name>dfs.client.failover.proxy.provider.master</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    <!-- 配置失败自动切换实现方式 -->
  </property>

  <property>
    <name>dfs.ha.fencing.methods</name>
    <value>
      sshfence
      shell(/bin/true)
    </value>
    <!-- 配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行-->
  </property>

  <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/root/.ssh/id_rsa</value>
    <!-- 使用sshfence隔离机制时需要ssh免登陆 -->
  </property>

  <property>
    <name>dfs.ha.fencing.ssh.connect-timeout</name>
    <value>3000</value>
    <!-- 配置sshfence隔离机制超时时间 -->
  </property>

</configuration>

yarn-site.xml：

<configuration>

<!-- Site specific YARN configuration properties -->

  <property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
    <!-- 开启RM高可用 -->
  </property>
  
  <property>
    <!--启动自动故障转移,默认为false-->
    <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
    <value>true</value>
  </property>

  <property>
    <!--启用一个内嵌的故障转移，与ZKRMStateStore一起使用。-->
    <name>yarn.resourcemanager.ha.automatic-failover.embedded</name>
    <value>true</value>
  </property>
 
  <property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>yrc</value>
    <!-- 指定RM的cluster id -->
  </property>

  <property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
    <!-- 指定RM的名字 -->
  </property>
 
  <property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>master1</value>
    <!-- 分别指定RM的地址 -->
  </property>
  
  <property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>master2</value>
    <!-- 分别指定RM的地址 -->
  </property>

  <property>
    <name>yarn.resourcemanager.ha.id</name>
    <value>rm1</value>     
    <!--如果是在主NN上 这里写rm1   如果这个配置文件是在备NN上 这里写rm2，否则RM的高可用会出问题-->
    <description>If we want to launch more than one RM in single node, we need this configuration</description>
  </property> 

  <property>  
    <name>yarn.resourcemanager.recovery.enabled</name>  
    <value>true</value>  
  </property>  

  <property>  
    <name>yarn.resourcemanager.store.class</name>  
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>  
  </property>    

  <property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>master1:2181,master2:2181,slaver1:2181</value>
    <!-- 指定zk集群地址 -->
  </property>

  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>

</configuration>

2：启动服务，测试NameNode的自动切换

PS：一定要注意启动的顺序，否则会出现各种各样的错误，亲测

每台机器上启动Zookeeper：bin/zkServer.sh start

zookeeper集群格式化（任意一个主节点上执行即可）：bin/hdfs zkfc -formatZK

每台机器上启动 journalnode：sbin/hadoop-daemon.sh start journalnode （如果这里不启动的话，在进行hdfs格式化的时候就会报错，同时这个进程只需在格式化的时候启动，后续启动服务则不需要）

hdfs集群格式化（master1上进行）：bin/hadoop namenode -format

看到 “0” 表示成功了

master1机器上启动服务：sbin/start-dfs.sh sbin/start-yarn.sh

执行jps查看进行如下（master1，master2，slaver1）：

master1（192.168.132.27）的web界面显示如下：

备用NN同步主NN的元数据信息（master2上执行）： bin/hdfs namenode -bootstrapStandby

启动备用NN（master2上执行）： sbin/hadoop-daemon.sh start namenode

执行jps（master2上执行）：

Web访问：

测试主NN和备用NN的切换：kill掉主NN进程 kill namenode_id

再次刷新master2对应的web，实现自动切换：

3：测试Resourcemanager自动切换

访问主NN的8088端口如下：

备用NN的8088端口：

kill 掉主NN的resourcemanager服务再次访问从NN的8088端口

OK！大功告成

四：遇见的问题

1：NameNode格式化失败

错误：failed on connection exception: java.net.ConnectException: Connection refused

解决办法：先启动Zookeeper集群，在用sbin/hadoop-daemon.sh start journalnode 启动各个NameNode上的JournalNode进程，然后再进行格式化

该错误参考博客：http://blog.csdn.net/u014729236/article/details/44944773

2：Web显示live nodes 为 0

解决办法：注释掉机子上 hosts文件中的原本的两行

3：master2的NameNode和 ResourceManager不能启动

查看日志发现错误

2016-08-30 06:10:57,558 INFO org.apache.hadoop.http.HttpServer2: HttpServer.start() threw a non Bind IOException
java.net.BindException: Port in use: master1:8088
        at org.apache.hadoop.http.HttpServer2.openListeners(HttpServer2.java:919)
        at org.apache.hadoop.http.HttpServer2.start(HttpServer2.java:856)
        at org.apache.hadoop.yarn.webapp.WebApps$Builder.start(WebApps.java:274)
        at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager.startWepApp(ResourceManager.java:974)
        at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager.serviceStart(ResourceManager.java:1074)
        at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
        at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager.main(ResourceManager.java:1208)
Caused by: java.net.BindException: Cannot assign requested address
        at sun.nio.ch.Net.bind0(Native Method)
        at sun.nio.ch.Net.bind(Net.java:444)
        at sun.nio.ch.Net.bind(Net.java:436)
        at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:214)
        at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74)
        at org.mortbay.jetty.nio.SelectChannelConnector.open(SelectChannelConnector.java:216)
        at org.apache.hadoop.http.HttpServer2.openListeners(HttpServer2.java:914)
        ... 6 more

端口被占用了，这时候要修改yarn-site.xml 中

 <property>
    <name>yarn.resourcemanager.ha.id</name>
    <value>rm2</value>
    <description>If we want to launch more than one RM in single node, we need this configuration</description>
  </property>

此时再次启动OK

4：NameNode不能自动切换

hdfs-site.xml通过dfs.ha.fencing.methods控制自动切换的方法， sshfence是系统默认的并不能自动切换，这里可以换成

<property>
    <name>dfs.ha.fencing.methods</name>
    <value>shell(/bin/true)</value>
    <!-- 配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行-->
  </property>

五：总结

在配置的过程中遇到了很多问题，参考了很多资料，但很多事情就是看着别人很顺利的完成，可是到了你这里就会出现各种错误，殊不知别人也是经历过各种调试才出的结果，所以不要灰心，在配置的过程中多看看日志，所有的错误都会在日志中显示，相信你会成功的。

微信关注我们

原文链接：https://yq.aliyun.com/articles/413053

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源大数据周刊-第20期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.5.0版本（正在研发）增加集群整体运行情况的仪表盘访问OSS不需要写id、key，增强安全性集群其中后，可以重启、修改配置及安装软件 1.6.0版本交互式查询（支持hive、spark）资讯对话Hadoop之父Doug Cutting|大数据和开源的未来主要点有：新硬件、Spark、Hadoop上云、中国大数据技术的发展、开源 E-MapReduce助力建设企业级数据仓库当业务系统在阿里云上，使用E-MapReduce建立数据仓库也是数天的事情大数据，为什么不是传统BI的简单升级?大数据与传统BI是社会发展到不同阶段的产物，大数据对于传统BI，既有继承，也有发展，从”道”的角度讲，BI与大数据区别在于前者更倾向于决策，对事实描述更多是基于群体共性，帮助决策者掌握宏观统计趋势

641

Hadoop 容错之1.X的单点故障到 2.X的HA和HDFS Federation

转载请注明出处：@http://blog.csdn.net/gamer_gyt，Thinkagmer 撰写博主微博：http://weibo.com/234654758（欢迎互撩）私人博客：http://blog.cyanscikit.top （尚在开发中）Github：https://github.com/thinkgamer ============================================================================= 写在前边的话动手准备写这篇博客，想的挺多，但是到了笔下，却很难说的一清二楚上一篇博客中我介绍了如何部署Hadoop HA（High Availability），在这篇博客中我们就来看一下Hadoop容错机制的演变之路一：1.x和2.x的架构对比具体可参考之前的一篇博文：Hadoop1.X 与 Hadoop2.X比较二：hadoop 1.X的单点故障 1）JobTracker是Map-reduce的集中处理点，存在单点故障； 2）JobTracker完成了太多的任务，造成了过多的资源消...

588

资源下载

更多资源

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Oracle Database，又名Oracle RDBMS

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

三台PC服务器部署Hadoop HA（Hadoop 高可用性架构）

写在前边的话：

一：架构说明

二：部署Zookeeper

三：部署HA

1：文件配置

2：启动服务，测试NameNode的自动切换

3：测试Resourcemanager自动切换

四：遇见的问题

1：NameNode格式化失败

2：Web显示live nodes 为 0

3：master2的NameNode和 ResourceManager不能启动

4：NameNode不能自动切换

五：总结

开源大数据周刊-第20期

Hadoop 容错之1.X的单点故障到 2.X的HA和HDFS Federation

相关文章

发表评论

资源下载

Mario，低调大师唯一一个Java游戏作品

Oracle Database，又名Oracle RDBMS

Apache Tomcat7、8、9（Java Web服务器）

Eclipse（集成开发环境）

欢迎您！

三台PC服务器部署Hadoop HA（Hadoop 高可用性架构）

写在前边的话：

一：架构说明

二：部署Zookeeper

三：部署HA

1：文件配置

2：启动服务，测试NameNode的自动切换

3：测试Resourcemanager自动切换

四：遇见的问题

1：NameNode格式化失败

2：Web显示live nodes 为 0

3：master2的NameNode和 ResourceManager不能启动

4：NameNode不能自动切换

五：总结

开源大数据周刊-第20期

Hadoop 容错之1.X的单点故障 到 2.X的HA和HDFS Federation

相关文章

发表评论

资源下载

Mario，低调大师唯一一个Java游戏作品

Oracle Database，又名Oracle RDBMS

Apache Tomcat7、8、9（Java Web服务器）

Eclipse（集成开发环境）

欢迎您！

Hadoop 容错之1.X的单点故障到 2.X的HA和HDFS Federation