Hadoop安装配置手册-低调大师

Hadoop安装配置手册

2013-02-28 849

Hadoop安装配置手册

一、准备篇

Hadoop运行环境：

SSH服务正常运行
JDK

没安装的可以自己安装一下。

二、基础篇（单节点Hadoop）

Hadoop下载

Hadoop下载页：http://hadoop.apache.org/releases.html#Download

本文基于hadoop1.0.4版本，下载：http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.4/hadoop-1.0.4.tar.gz

解压下载的源码压缩包到合适的位置，如：/Users/yinxiu/dev/hadoop-1.0.4（这是本文安装hadoop的位置）

环境变量（hadoop_env.sh）

目录/Users/yinxiu/dev/hadoop-1.0.4/conf

2.1 JAVA_HOME 必须变量

export JAVA_HOME=实际JDK路径

如：

export JAVA_HOME=/System/Library/Java/JavaVirtualMachines/1.6.0.jdk/Contents/Home

2.2 HADOOP_HOME 可选变量

HADOOP_HOME默认的是bin目录的父目录，本文中的配置就是/Users/yinxiu/dev/hadoop-1.0.4

export HADOOP_HOME=/Users/yinxiu/dev/hadoop-1.0.4

注意：在试验的时候发现配置了HADOOP_HOME后启动Hadoop提示：$HADOOP_HOME is deprecated.

这个提示是说重复定义了。

这个警告发生在HADOOPINSTALL/bin/hadoop-config.sh中：

if [ "$HADOOP_HOME_WARN_SUPPRESS" = "" ] && [ "$HADOOP_HOME" != "" ]; then

echo "Warning: \$HADOOP_HOME is deprecated." 1>&2

echo 1>&2

fi

export HADOOP_HOME=${HADOOP_PREFIX}

解决方法：可以去除HADOOP_HOME的配置，也可以通过添加export HADOOP_HOME_WARN_SUPPRESS=TRUE到hadoop-env.sh中。

环境配置文件的配置

主要有三个配置文件：core-site.xml，hdfs-site.xml，mapred-site.xml

3.1 conf/core-site.xml

<name>fs.default.name</name>

<value>hdfs://(master ip):9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>hadoop运行的临时目录</value>

</property>

</configuration>

hadoop运行的临时目录：/Users/yinxiu/dev/hadoopdata/temp

3.2 conf/hdfs-site.xml

<name>dfs.replication</name>

</property>

<value>DFS的数据保存目录</value>

</property>

<value>DFS Namenode保存的位置</value>

</property>

</configuration>

DFS的数据保存目录：/Users/yinxiu/dev/hadoopdata/data

DFS Namenode保存的位置：/Users/yinxiu/dev/hadoopdata/temp/dfs/name

3.3 conf/mapred-site.xml

<name>mapred.job.tracker</name>

<value>(master ip):9001</value>

</property>

</configuration>

可以配置单节点同时运行的最大map数和单节点同时运行的最大reduce数：

mapred.tasktracker.map.tasks.maximum=8

mapred.tasktracker.reduce.tasks.maximum=6

ssh配置(使其可以通过ssh无密码登录，即通过证书认证登录)

sh-keygen –t dsa –P ‘’ –f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

注意：connect to host localhost port 22: Connection refused

运行hadoop的时候需要确保ssh运行正常。引起connect to host localhost port 22: Connection refused的原因可能有多个，比如没有开启远程登录。

MAC开启远程登录：http://www.bluishcoder.co.nz/articles/mac-ssh.html

启动

进入HADOOPINSTALL目录

5.1 格式化namenode

执行bin/hadoop namenode -format

5.2 简单启动所有守护

bin/start-all.sh

5.3 停止守护

bin/stop-all.sh

验证测试

启动成功后可在浏览器查看以下地址：

6.1 Job tracker

http://master ip:50030

6.2 NameNode

http://master ip:50070

三、进阶篇（多节点Hadoop）

以5台机子为例，分别为

node-1 NameNode

node-2 DataNode

node-3 DataNode

node-4 DataNode

node-5 DataNode

集群SSH设置（namenode通过ssh可以无密码登录datanode）

在将作为NameNode的机器上生成密钥对：

$ssh-keygen –t rsa –P ‘’ –f ~/.ssh/id_rsa

$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

注意ssh-keygen命令和cat命令的使用。

提示要为生成的密钥输入passphrase的时候，直接回车将其设定为空密码

将id_ras.pub的内容复制到每个机器（包括本机）的.ssh/authorized_keys文件中（如果原先有authorized_keys文件了将id_rsa.pub的内容追加在后面）

复制和远程复制需要看cp和scp命令。

如果ssh配置好了，就会出现以下提示信息

The authenticity of host [servername-2] can’t be established.

Key fingerprint is 1024 5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.

Are you sure you want to continue connecting (yes/no)?
OpenSSH告诉你它不知道这台主机，但是你不用担心这个问题，因为你是第一次登录这台主机。键入“yes”。这将把这台主机的“识别标记”加到“~/.ssh/know_hosts”文件中。第二次访问这台主机的时候就不会再显示这条提示信息了。

注意：Authentication refused: bad ownership or modes for directory /root错误的原因可能是权限问题或者用户组等问题，参考下面的一些资料。

http://recursive-design.com/blog/2010/09/14/ssh-authentication-refused/

http://bbs.csdn.net/topics/380198627

主机配置

主机配置与基础篇中的配置基本一致，不再说明。

Masters/Slaves文件配置

NameNode节点的HADOOPINSTALL/conf/masters文件中添加主机名。那么本例中的masters文件内容如下:

node-1

HADOOPINSTALL/conf/slaves中添加DataNode节点的主机名，一行一个主机名。内容如下：

node-2

node-3

node-4

node-5

部署Hadoop集群

前面讲的这么多Hadoop的环境变量和配置文件都是在node-1这台master主机上的，将上述配置好的hadoop分发至各个slave的相同位置，注意要保证目录结构一致。

使用scp进行分发。

启动

配置完后对NameNode进行格式化。

bin/hadoop namenode –format

启动与基础篇一致，使用简单的start-all.sh和stop-all.sh进行启动和关闭，注意启动前

测试验证

部分资料

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html

如果本文对您有帮助，点一下右下角的“推荐”

微信关注我们

原文链接：https://yq.aliyun.com/articles/660476

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

解决Eclipse中运行WordCount出现 java.lang.ClassNotFoundException: org.apache.h...

原文：http://tonymomo.pixnet.net/blog/post/62329497 1 package org.apache.hadoop.examples; 2 3 import java.io.File; 4 import java.io.FileInputStream; 5 import java.io.FileOutputStream; 6 import java.io.IOException; 7 import java.net.URL; 8 import java.net.URLClassLoader; 9 import java.util.ArrayList; 10 import java.util.List; 11 import java.util.jar.JarEntry; 12 import java.util.jar.JarOutputStream; 13 import java.util.jar.Manifest; 14 15 public class EJob { 16 17 // To declare global field 18 priva...

2013-02-27

790

假设关系型数据库中存在如下表(test_row_key) ------------------------------------------ TIME_ID AREA_ID INDEX1 .......................................... 201206 730 201206730 201206 731 201206731 201207 730 201207730 201207 731 201207731 201207 732 201207732 让我们将数据导入hbase(测试环境Version 0.94.3, r1408904) 问题重现 // select TIME_ID, AREA_ID, INDEX1 from test_row_key where TIME_ID = 201206 and AREA_ID = 730 // 应该返回1行数据 scan 'test_row_key', {COLUMNS => ['cf:TIME_ID','cf:AREA_ID','cf:INDEX1'], FILTER => "(SingleCo...

2013-03-01

952

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。