您现在的位置是：首页 > 文章详情

Hadoop入门 -- 简介，安装，示例

日期：2015-02-24点击：500收藏

(1) Hadoop简介

Hadoop是Apache基金会旗下开源项目，是一款开源的可靠、可扩展的分布式计算软件平台。

Hadoop可以看做是实现分布式计算的一个框架。可利用其提供的函数接口进行简单编程，对数据进行分布式处理。

分布式处理系统关键是保证系统的高可靠性(一般分布式系统均使用廉价，配置不高的机器作为节点，所以单一的节点出现问题的几率较高)，Hadoop利用软件在应用层发现与处理错误。

Hadoop实现分布式处理的思想主要体现在MapReduce框架上，MapReduce框架是Hadoop中的一个模块。

Hadoop作为处理分布式数据的平台，实现了HDFS(Hadoop Distributed File System)文件系统，用于分布式数据的存储。

(2) Hadoop安装

Hadoop一般在linux系统下使用，若在Windows系统下需模拟Unix系统来实现。

Hadoop一般使用Java函数接口，进行Java编程，也有C语言等接口可用。

最通用的就是linux+java。

Hadoop作为分布式处理系统，不仅可以应用在多台机器上，它也提供了伪分布式模式供单台机器使用。

安装Hadoop需要一些辅助环境与软件，首先是java环境，安装JDK，linux环境下安装JDK主要是配置环境变量，可参考相关教程。

示例：

在/usr下建立文件夹java，将jdk安装文件复制到该文件夹下，解压tar -xzvf jdk文件名，接着配置环境变量。

其次是安装SSH服务，一般选择OpenSSH，SSH用于分布式系统节点之间的联系(分布式系统要实现数据之间的分布式处理，需进行通信，SSH就是为了实现此所必须的)。

安装SSH使用，Ubuntu系统下示例：

$ sudo apt-get install ssh $ sudo apt-get install rsync

ssh安装后要设置ssh的免密码登陆，具体完成的操作是密钥的生成，在分布式环境中使用时要将密钥分发到各台机器上，以便相互无密码访问。

ssh无密码登陆的操作：

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

第一句是生成无密码的密钥，第二句是将生成的密钥复制到密钥验证文件中，用于访问时加解密。

测试：

$ ssh localhost

如果可以登陆到本地，即证明免密码登陆成功。

伪分布安装教程(用于自用试验性质)

1、下载软件包，将tar.gz软件包复制到安装目录(安装目录可以自己选择，一般选用/usr/local/下)；

2、软件配置文件的配置，hadoop既然是分布式计算平台，就要规定它的数据节点，管理各子节点的机器，所以就要填一些网络地址，因为是伪分布模式，所以一般都是填写本地网络地址localhost。主要配置文件包括：

conf/core-site.xml:

<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>

conf/hdfs-site.xml :

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

conf/mapred-site.xml :

<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>

此外还要配置JDK路径，供hadoop调用。

未完待续。。。

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

Java分享