Hadoop使用(一)
hadoop框架
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成。
其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。
1,NameNode
NameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。
2,DataNode
集群中每个从服务器都运行一个DataNode后台程序,后台程序负责把HDFS数据块读写到本地文件系统。需要读写数据时,由NameNode告诉客户端去哪个DataNode进行具体的读写操作。
3,Secondary NameNode
Secondary NameNode是一个用来监控HDFS状态的辅助后台程序,如果NameNode发生问题,可以使用Secondary NameNode作为备用的NameNode。
4,JobTracker
JobTracker后台程序用来连接应用程序与Hadoop,用户应用提交到集群后,由JobTracker决定哪个文件处理哪个task执行,一旦某个task失败,JobTracker会自动开启这个task。
4,TaskTracker
TaskTracker负责存储数据的DataNode相结合,位于从节点,负责各自的task。
hadoop的安装
1)安装SSH
sudo apt-get install ssh
2)安装java
3)安装hadoop
下载并解压缩
tar -zxvf hadoop-0.21.0.tar.gz
4)改变配置
指定java安装路径
使用vi
vi conf/hadoop-env.sh
添加
export JAVA_HOME = /usr/java/jdk1.7.0_01
可以使用三种模式安装,测试阶段可以使用单机模式。
在启动的时候可能会遇到很多问题,比如 22 connection refused
可以安装openssh,使用apt-get
sudo apt-get install openssh-client
sudo apt-get install openssh-server
sudo apt-get install chkconfig
使用chkconfig --list | grep sshd查看服务是否启动
使用ssh localhost
出现如下提示
输入密码后
出现欢迎页面,配置成功
免密码登录
ssh-keygen -t rsa
进入.ssh目录
执行
cp id_rsa.pub authorized_keys
重新ssh localhost,可以不输入密码
单机伪分布式:
进入目录/hadoop/conf
编辑 ~/hadoop/conf/core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/tmp/hadoop/hadoop-${user.name}</value> </property> </configuration>
编辑 ~/hadoop/conf/hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
编辑 ~/hadoop/conf/mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>
然后进入hadoop/bin目录
执行 ./hadoop namenode -format
执行start-all.sh
启动完成
打开浏览器,输入http://localhost:50030
就可以看到如下界面
运行示例 bin/hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount in out
得到输出结果,配置成功!
安装eclipse插件
插件的路径在0.21下有所更改,路径如下
将插件拷到eclipse pluglin目录下
重启eclipse
启动后多出一个目录
就可以使用eclipse进行编程了。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
云计算读书笔记(五)
Hadoop:Google云计算的开源实现 Hadoop是Apache开源组织的一个分布式计算机框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,为应用程序提供一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。 Hadoop的核心是HDFS,MapReduce和HBase,它们分别对应Google的云计算GFS,MapReduce和Bigtable。 Hadoop主要由以下几个子项目组成: 1)Hadoop Common:原来的Hadoop Core,这是整个Hadoop项目的核心 2)Avro:Hadoop的RPC方案 3)Vhukwa:一个用来管理大型分布式系统的数据采集系统 4)HBase:支持结构化数据存储的分布式数据库,是Bigtable的开源实现 5)HDFS:提供高呑吐量的分布式文件系统,是GFS的开源实现 6)Hive:提供数据摘要和查询功能键的数据仓库 7)MapReduce:大型数据的分布式处理模型 8)Pig:是在MapReduce上构建的一种高级的数据流语言 9)ZooKeeper:用于解决分布式系统中的一致性问题,是Chubby的开源...
- 下一篇
hadoop使用(三)
安装hbase 首先下载hbase的最新稳定版本 http://www.apache.org/dyn/closer.cgi/hbase/ 安装到本地目录中,我安装的是当前用户的hadoop/hbase中 tar -zxvf hbase-0.90.4.tar.gz 单机模式 修改配置文件 conf/hbase_env.sh 配置JDK的路径 修改conf/hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>file:///home/${user.name}/hbase-tmp</value> </property> </configuration> 完成后启动 bin/start-hbase.sh 启动后 starting master, logging to /home/lgstar888/hadoop/hbase0.9/bin/../logs/hbase-lgstar888-master-u...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8安装Docker,最新的服务器搭配容器使用