Hadoop的安装
一、 Hadoop安装
1.1 hosts文件修改
在每个结点修改hosts文件,配置节点IP与别名
Vi /etc/hosts
1.2 建立hadoop用户
Useradd username //添加用户
Passwd username //为用户生成密码
1.3 生成公私钥密钥对
用hadoop 用户登录
在各个节点上,分别使用 ssh-keygen –t rsa –f ~/.ssh/id_rsa来生成密钥
Cd ~/.ssh
cat id_rsa.pub >> authorized_keys
1.4 密钥合并和相互复制
将各个节点的authorized_keys 合并,并分发到每个节点,如果是从本地免密码登录远程主机,则把本现的id_rsa.pub复制到远程主机。
1.5 安装hadoop
从mirror.bit.edu.cn 用hadoop用户解压到安装目录,
进入hadoop 的conf 目录:
1、 修改core-site.xml
2、
配置 fs.default.name 属性, 即namenode 节点IP和端口
Hadoop.tmp.dir hadoop临时文件目录,弱不配置,则使用操作系统的/tmp,重启后/tmp文件删除,必须重新 格式化hdfs,所以,需要自定义临时目录。
2、修改hdfs-site.xml
dfs.name.dir namenode文件存放目录,此目录在namenode节点
dfs.data.dir dataNode 数据文件存放目录,应该目录分布在各dataNode 节点
dfs.replication 文件分割数量。小于等于 datanode数
3、修改mapred-site.xml
Mapred.job.tracker mareduce 作业跟踪器主机IP与端口,一般同namenodeIP,配置自定义
4、修改hadoop-env.sh
如图,找到 export_JAVA_HOME,去掉注释,并写上JDK路径
5、其它,在完全分布式安装中,还需要配置 master 和slaves master写nameNode的、slaves中写上各datanode的hostname,配置完后,将hadoop复制到集群中的其它节点。
配置完后,在 namenode上进入hadoop安装目录的bin 第一次使用,运行 hadoop dfs –format格式化文件系统,然后 使用 ./start-all.sh 来启动hadoop
成功启动后,输入JPS命令,如图:
因为我这里是伪分布式,所以namenode和datanode在同一台机上,若为完全分布式,则在datanode主机上查看datanode进程
二、HDFS 文件操作
1、命令行操作
1、列出hadoop 文件列表
Hadoop dfs –ls
详细的,查看API
微信公众号: 猿人谷
如果您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】
如果您希望与我交流互动,欢迎关注微信公众号
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
在windows下使用eclipes连接linux下的Hadoop集群
来源:http://suxain.iteye.com/blog/1748356 hadoop 是工作在linux下的分布式系统,做为一个开发者,对于手里资源有限,不得不使用只有终端的虚拟机来运行hadoop集群。但是,在这种环境下,开发,调试就变得那么的不容易了。那么,有没有办法在windows下发调试呢。答案是肯定的。 hadoop为我们提供了一个Eclipes插件,使用我们可以在Eclipse环境下开发,调试hadoop程序,那么,应该如何安装eclipse-hadoop插件呢。下面把我的研究结果分享给大家(附上我自己编译的插件)。 1、编译eclipse-hadoop-plugins 在hadoop目录下的找到/src/contrib/eclipse-plugin,用eclipse导入该project, 由于插件需要hadoop的一些JAR 文件,所以,右键单击项目->build path ->configuretion build path->libraies->add External jars 。在hadoop的目录和其lin目录找到...
- 下一篇
hadoop 1.x环境搭建
近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文。 首先要了解一下Hadoop的运行模式: 单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下 所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何 Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。 伪分布模式(Pseudo-Distributed Mode) 伪分布模式在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。 全分布模式(Fully Distributed Mode) Hadoop守护进程运行在一个集群上。 版本:ubuntu 10.04.4,hadoop 1.0.2 1.添加hadoop用户到系统用户 安装前要做一件...
相关文章
文章评论
共有0条评论来说两句吧...