Hadoop入门 -- 简介,安装,示例

(1) Hadoop简介

Hadoop是Apache基金会旗下开源项目,是一款开源的可靠、可扩展的分布式计算软件平台。

Hadoop可以看做是实现分布式计算的一个框架。可利用其提供的函数接口进行简单编程,对数据进行分布式处理。

分布式处理系统关键是保证系统的高可靠性(一般分布式系统均使用廉价,配置不高的机器作为节点,所以单一的节点出现问题的几率较高),Hadoop利用软件在应用层发现与处理错误。

Hadoop实现分布式处理的思想主要体现在MapReduce框架上,MapReduce框架是Hadoop中的一个模块。

Hadoop作为处理分布式数据的平台,实现了HDFS(Hadoop Distributed File System)文件系统,用于分布式数据的存储。

(2) Hadoop安装

Hadoop一般在linux系统下使用,若在Windows系统下需模拟Unix系统来实现。

Hadoop一般使用Java函数接口,进行Java编程,也有C语言等接口可用。

最通用的就是linux+java。

Hadoop作为分布式处理系统,不仅可以应用在多台机器上,它也提供了伪分布式模式供单台机器使用。

安装Hadoop需要一些辅助环境与软件,首先是java环境,安装JDK,linux环境下安装JDK主要是配置环境变量,可参考相关教程。

示例:

在/usr下建立文件夹java,将jdk安装文件复制到该文件夹下,解压tar -xzvf jdk文件名,接着配置环境变量。

其次是安装SSH服务,一般选择OpenSSH,SSH用于分布式系统节点之间的联系(分布式系统要实现数据之间的分布式处理,需进行通信,SSH就是为了实现此所必须的)。

安装SSH使用,Ubuntu系统下示例:

$ sudo apt-get install ssh
$ sudo apt-get install rsync
 
 
ssh安装后要设置ssh的免密码登陆,具体完成的操作是密钥的生成,在分布式环境中使用时要将密钥分发到各台机器上,以便相互无密码访问。
 
 
ssh无密码登陆的操作:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
第一句是生成无密码的密钥,第二句是将生成的密钥复制到密钥验证文件中,用于访问时加解密。
 
 
测试:
$ ssh localhost
如果可以登陆到本地,即证明免密码登陆成功。
 
 
伪分布安装教程(用于自用试验性质)
1、下载软件包,将tar.gz软件包复制到安装目录(安装目录可以自己选择,一般选用/usr/local/下);
2、软件配置文件的配置,hadoop既然是分布式计算平台,就要规定它的数据节点,管理各子节点的机器,所以就要填一些网络地址,因为是伪分布模式,所以一般都是填写本地网络地址localhost。主要配置文件包括:
conf/core-site.xml:
<configuration>
     <property>
         <name>fs.default.name</name>
         <value>hdfs://localhost:9000</value>
     </property>
</configuration>
conf/hdfs-site.xml :
<configuration>
     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
</configuration>
conf/mapred-site.xml :
<configuration>
     <property>
         <name>mapred.job.tracker</name>
         <value>localhost:9001</value>
     </property>
</configuration>
此外还要配置JDK路径,供hadoop调用。
未完待续。。。



 
 
 
 

优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/609772

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。