hadoop集群环境的搭建-低调大师

hadoop集群环境的搭建

2016-04-25 724

今天终于把hadoop集群环境给搭建起来了，能够运行单词统计的示例程序了。

集群信息如下：

主机名	Hadoop角色	Hadoop jps命令结果	Hadoop用户	Hadoop安装目录
master	Master slaves	NameNode DataNode JobTracker TaskTracker SecondaryNameNode	创建相同的用户的组名：hadoop。安装hadoop-0.20.2时使用hadoop用户，并且hadoop的文件夹归属也是hadoop：hadoop	/opt/hadoop
slave1	slaves	DataNode TaskTracker
slave2	slaves	DataNode TaskTracker

　　注：master即使master又是slave.

搭建步骤如下：

　　一、首先是搞好master

　　1、创建用户组

　　　　groupadd hadoop 添加一个组

　　　　useradd hadoop -g hadoop 添加用户

　　2、jdk的安装

　　　　这里安装的版本是jdk-7u9-linux-i586.tar.gz ，使用 tar -zsvf jdk-7u9-linux-i586.tar.gz -C /opt/ 命令将其解压到/opt目录下，并将解压后的文件夹jdk-7u9-linux-i586改名为java.

　　　　jdk安装好就要配置环境变量了，使用vi /etc/profile命令编辑添加如下内容：

　　　　export JAVA_HOME=/opt/java/jdk
exprot PATH=$JAVA_HOME/bin:$PATH

　　　　配置好之后要用命令source /etc/profile使配置文件生效，这样jdk就安装完毕了。安装完之后不要忘了将所有者设置为hadoop。

使用命令chown -R hadoop:hadoop java/

　　3.hadoop的安装

　　　　hadoop的版本是hadoop-0.20.2.tar.gz，也把它解压到/opt目录下面，改名为hadoop。

　　　　hadoop也要设置环境变量，使用vi /etc/profile命令编辑添加如下内容：

　　　　export HADOOP_HOME=/opt/hadoop

　　　　export PATH=$HADOOP_HOME/bin:$PATH

　　　　同样也要执行source /etc/profile使配置文件生效,然后执行命令使用命令chown -R hadoop:hadoop hadoop/将其所有者改为hadoop

　　4、修改地址解析文件/etc/hosts，加入

　　　　192.168.137.110 master

　　　　192.168.137.111 slave1

　　　　192.168.137.112 slave2

　　5、修改hadoop的配置文件

　　首先切换到hadoop用户，su hadoop

　　①修改hadoop目录下的conf/hadoop-env.sh文件

　　　　加入java的安装路径export JAVA_HOME=/opt/java/jdk

　　②把hadoop目录下的conf/core-site.xml文件修改成如下：

 1 <property>
 2   <name>hadoop.tmp.dir</name>
 3   <value>/hadoop</value>
 4 </property>
 5 <property>
 6   <name>fs.default.name</name>
 7   <value>hdfs://master:9000</value>
 8 </property>
 9 <property>
10   <name>dfs.name.dir</name>
11   <value>/hadoop/name</value>
12 </property>

　　③把hadoop目录下的conf/ hdfs-site.xml文件修改成如下：

1 <property>
2     <name>dfs.replication</name>
3     <value>3</value>
4 </property>
5 <property>
6     <name>dfs.data.dir</name>
7     <value>/hadoop/data</value>
8 </property>

　　④把hadoop目录下的conf/ mapred-site.xml文件修改成如下：

 1 <property>
 2     <name>mapred.job.tracker</name>
 3     <value>master:9001</value>
 4 </property>
 5 <property>
 6     <name>mapred.system.dir</name>
 7     <value>/hadoop/mapred_system</value>
 8 </property>
 9 <property>
10     <name>mapred.local.dir</name>
11     <value>/hadoop/mapred_local</value>
12 </property>

　　⑤把hadoop目录下的conf/ masters文件修改成如下：

　　　　master

　　⑥把hadoop目录下的conf/ slaves文件修改成如下：

　　　　master

　　　　slave1

　　　　slave2

　　6、复制虚拟机

　　　我使用Virtual Box的克隆功能，将主机master完全克隆两份:slave1和slave2，并修改相应的主机名和IP地址，这样就可以简单地保持hadoop环境基本配置相同。

　　7、SSH设置无密码验证

　　　切换到Hadoop用户，在Hadoop家目录下面创建.ssh目录，并在master节点上生成密钥对：ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa 。然后一直按[Enter]键，按默认的选项生成密钥对保存在.ssh/id_rsa文件中。

　　　　然后执行如下命令：

$ ssh ~/.ssh

$ cp id_rsa.pub authorized_keys

$ scp authorized_keys slave1:/home/hadoop/.ssh

$ scp authorized_keys slave2:/home/hadoop/.ssh

　　　　执行远程复制文件的时候记得要把slave1和slave2的防火墙关掉。复制完毕后记得要到slave1和slave2去修改该文件的权限。

从master向slave1和slave2发起SSH连接，第一次登录时需要输入密码，以后就不需要了。

$ ssh slave1

$ ssh slave2

我们只需要配置从master向slaves发起SSH连接不需要密码就可以了，但这样只能在master（即在主机master）启动或关闭hadoop服务。

　　8、运行hadoop

　　　　使用Hadoop用户，切换到hadoop/bin目录下

　　　　格式化分布式文件系统./hadoop namenode -format

　　　　执行命令./start-all.sh启动hadoop

　　　　在master上执行jps命令查看运行的进程如下：

[hadoop@master hadoop]$ jps
3200 SecondaryNameNode
3271 JobTracker
3370 TaskTracker
3002 NameNode
3106 DataNode
5687 Jps

　　　　在slave1和slave2上执行jps结果如下：

[hadoop@slave1 ~]$ jps
1477 DataNode
3337 Jps
1547 TaskTracker

　　　　访问http://master:50070可以查看分布式文件系统的状态

　　9、运行单词统计程序

　　　　WordCount是hadoop自带的实例，统计一批文本文件中各单词出现的资料，输出到指定的output目录中，输出目录如果已经存在会报错。

$ cd /opt/hadoop
$ hadoop fs -mkdir input
$ hadoop fs -copyFromLocal /opt/hadoop/.txt input/
$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output
$ hadoop fs -cat output/    #最后查看结果

运行结果如下：

13/06/16 19:32:26 INFO input.FileInputFormat: Total input paths to process : 4
13/06/16 19:32:26 INFO mapred.JobClient: Running job: job_201306161739_0002
13/06/16 19:32:27 INFO mapred.JobClient:  map 0% reduce 0%
13/06/16 19:32:35 INFO mapred.JobClient:  map 50% reduce 0%
13/06/16 19:32:36 INFO mapred.JobClient:  map 100% reduce 0%
13/06/16 19:32:47 INFO mapred.JobClient:  map 100% reduce 100%
13/06/16 19:32:49 INFO mapred.JobClient: Job complete: job_201306161739_0002
13/06/16 19:32:49 INFO mapred.JobClient: Counters: 18
13/06/16 19:32:49 INFO mapred.JobClient:   Job Counters
13/06/16 19:32:49 INFO mapred.JobClient:     Launched reduce tasks=1
13/06/16 19:32:49 INFO mapred.JobClient:     Rack-local map tasks=2
13/06/16 19:32:49 INFO mapred.JobClient:     Launched map tasks=4
13/06/16 19:32:49 INFO mapred.JobClient:     Data-local map tasks=2
13/06/16 19:32:49 INFO mapred.JobClient:   FileSystemCounters
13/06/16 19:32:49 INFO mapred.JobClient:     FILE_BYTES_READ=179182
13/06/16 19:32:49 INFO mapred.JobClient:     HDFS_BYTES_READ=363457
13/06/16 19:32:49 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=358510
13/06/16 19:32:49 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=133548
13/06/16 19:32:49 INFO mapred.JobClient:   Map-Reduce Framework
13/06/16 19:32:49 INFO mapred.JobClient:     Reduce input groups=10500
13/06/16 19:32:49 INFO mapred.JobClient:     Combine output records=10840
13/06/16 19:32:49 INFO mapred.JobClient:     Map input records=8968
13/06/16 19:32:49 INFO mapred.JobClient:     Reduce shuffle bytes=179200
13/06/16 19:32:49 INFO mapred.JobClient:     Reduce output records=10500
13/06/16 19:32:49 INFO mapred.JobClient:     Spilled Records=21680
13/06/16 19:32:49 INFO mapred.JobClient:     Map output bytes=524840
13/06/16 19:32:49 INFO mapred.JobClient:     Combine input records=47258
13/06/16 19:32:49 INFO mapred.JobClient:     Map output records=47258
13/06/16 19:32:49 INFO mapred.JobClient:     Reduce input records=10840

　　运行该程序一定得注意将slave1和slave2的防火墙给关闭，否则会报异常的。

微信关注我们

原文链接：https://yq.aliyun.com/articles/34782

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hadoop中datanode无法启动，报Caused by: java.net.NoRouteToHostException: No ro...

今天把hadoop环境给搭起来了，在master上面启动hadoop后，jps查看进程，SecondaryNameNodeNameNode JpsDataNodeJobTrackerTaskTracker都没问题。但是去 http://master:50070/dfshealth.jsp查看，live nodes为0。所以我到slave1和slave2上面去执行jps查看进程，结果都没有datanode进程，也就是说datanode没有启动成功，所以我就到logs里面去执行less hadoop-hadoop-datanode-slave2.log，发现报错的内容如下： 2013-06-11 02:22:13,637 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG: /** STARTUP_MSG: Starting DataNode STARTUP_MSG: host = slave2/192.168.137.112 STARTUP_MSG: args = [] STARTUP_MSG: vers...

2016-04-25

683

HDFS是一个分布式文件系统，既然是文件系统，就可以对其文件进行操作，比如说新建文件、删除文件、读取文件内容等操作。下面记录一下使用JAVA API对HDFS中的文件进行操作的过程。对分HDFS中的文件操作主要涉及一下几个类： Configuration类：该类的对象封转了客户端或者服务器的配置。 FileSystem类：该类的对象是一个文件系统对象，可以用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(conf);通过FileSystem的静态方法get获得该对象。 FSDataInputStream和FSDataOutputStream：这两个类是HDFS中的输入输出流。分别通过FileSystem的open方法和create方法获得。具体如何对文件操作清下下面例子： 1 package com.hdfs; 2 3 import java.io.FileInputStream; 4 import java.io.IOException; 5 import java.io.InputStream; 6 7 import org.ap...

2016-04-25

627

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。