Hadoop伪分布式搭建操作步骤指南
一、准备工作
- 在 /opt/目录下创建文件夹modules,和softwares
- 修改操作权限(切换至root用户下)
- chown -R wxt:wxt /opt/
- 然后切换至普通用户
- mkdir softwares
- mkdir modules
- 安装lrzsz (在linux里可代替ftp上传和下载。)
首先安装lrzsz
- yum -y install lrzsz
- 上传文件,执行命令rz,会跳出文件选择窗口,选择好文件,点击确认即可。
- rz
- 下载文件,执行命令sz
- sz
二、Hadoop环境部署-JDK部分
1.
- 上传jdk 至softwares
2.
- 解压jdk 至modules
- tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/
3.
- 修改环境变量
- 切换至 root 用户修改 vi /etc/profile 文件,配置jdk环境变量
- #JAVA_HOME
- export JAVA_HOME=/opt/modules/jdk1.7.0_67
- export PATH=$PATH:$JAVA_HOME/bin
4.
- source /etc/profile 使文件生效
- 验证是否配置成功
- java -version
- java version "1.7.0_09-icedtea"
- OpenJDK Runtime Environment (rhel-2.3.4.1.el6_3-x86_64)
- OpenJDK 64-Bit Server VM (build 23.2-b09, mixed mode)
- jps命令可以查看java 进程
- echo $JAVA_HOME
三、Hadoop伪分布式环境部署-Hadoop部分
1.
- 上传文件hadoop-2.5.0.tar.gz,至softwares
- 解压文件至modules
- tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules/
2.
- 清理Hadoop的目录,将hadoop/share/doc目录删除,节省磁盘空间, 通过这个命令查看df -h
3.
- 修改hadoop/etc/hadoop/hadoop-env.sh文件
- 修改hadoop/etc/hadoop/mapred-env.sh文件
- 修改hadoop/etc/hadoop/yarn-env.sh文件
- 指定Java安装路径
- export JAVA_HOME=/opt/modules/jdk1.7.0_67
4.
- 注意:
- Hadoop中的四个核心模块对应四个默认配置文件
- HDFS,Hadoop默认的文件系统,是文件系统的访问入口
- Namenode,所在的机器9000端口是早期Hadoop 1.x使用的,现在 Hadoop 2.x使用的是8020端口号用于节点直接内部通信,使用RPC通信机制
5.
- 修改hadoop/etc/hadoop/core-site.xml文件
- <property>
- <name>fs.defaultFS</name>
- <!--bigdata-4 为我的localhost 名字-->
- <value>hdfs://bigdata-4:8020</value>
- </property>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/opt/modules/hadoop-2.5.0/data/tmp</value>
- </property>
6.
- 注意:
- /tmp表示临时存储目录,系统每次重启会按照脚本预先设置好的删 除 里面的文件重新自定义系统生成的文件路径,/tmp会被清空,无法保证数据文件安全性。
7.
- 修改hadoop/etc/hadoop/hdfs-site.xml文件
- 指定HDFS文件存储的副本数个数,默认是3个,这里是单台机器就设置为1,这个数字要小于datanode的节点数。
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
8.
- 修改hadoop/etc/hadoop/slaves文件
- 指定从节点的机器位置,添加主机名即可
- bigdata-4
9.
- 格式化namenode
- bin/hdfs namenode -format
10.
- 启动命令
- sbin/hadoop-daemon.sh start namenode
- sbin/hadoop-daemon.sh start datanode
11.
- 查看HDFS外部UI界面
- bigdata-04或者IP地址 跟上50070端口号,外部通信http dfs.namenode.http-address 50070
- http://bigdata-4:50070 (如果windows本地没有配置hosts,需要配置)
- 如果不能正确打开页面,请检查防火墙是否关闭
- 切换至root 用户,service iptables status
- 关闭防火墙 chkconfig iptables off
12.
- 测试HDFS环境
- 创建文件夹,HDFS中有用户主目录的概念,和Linux一样
- bin/hdfs dfs -mkdir -p wxt_test/iuput
13.
- 上传文件到HDFS(随便找一个文件上传就行)
- bin/hdfs dfs -put /opt/modules/hadoop-2.5.0/etc/hadoop/core-site.xml wxt_test/input/core-site.xml
- 上传成功,HDFS外部UI界面,会有上传的文件显示
14.
- 读取HDFS的文件
- bin/hdfs dfs -text /core-site.xml
- 终端会显示上传文件的内容。
15.
- 下载文件到本地(指定下载到哪里,同时可以重命名成get-site.xml)bin/hdfs dfs -get /core-site.xml /home/wxt/Desktop/get-site.xml然后你会看到这个文件,并且重命名于桌面。
Hadoop 伪分布式搭建至此结束。
原文发布时间为:2017-10-25
本文作者:imxintian
本文来自云栖社区合作伙伴“51CTO”,了解相关信息可以关注。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里云MaxCompute香港开服 将引入更多人工智能服务
9月18日,阿里云宣布大数据计算服务MaxCompute在香港正式开服。通过MaxCompute强大的计算能力,阿里云将为香港市场提供更多的人工智能产品,助力当地企业智能化升级。 据了解,MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速解决用户海量数据计算问题,有效降低企业成本、保障数据安全。 香港节点部署的为MaxCompute2.0版本。新版本依托全新的SQL 2.0计算引擎带来更高性能运算;支持非结构化数据处理,通过外表与外部数据源关联,提供自定义解析数据格式的编程接口,支持任意数据格式。此外,MaxCompute2.0支持更多的语言功能,为人工智能等热门领域提供海量数据计算支持。 “随着行业需求的不断增长,数据处理与分析依旧是云计算提供商的主要服务内容。”阿里云人工智能科学家闵万里博士表示,“结合我们已有的产品和服务,MaxCompute在香港开服,能够提升我们在当地的服务能力,为我们的客户提供全面的云解决方案,从而满足对安全和可扩展计算服务日益增长的需求。” 今年8月初,澳门政府引入阿里云的“ET城市大脑”构建智能城市;8月底,保利协...
- 下一篇
人们应该知道的大数据术语
大数据带来了许多新的术语,但一些术语往往不太好理解。以下是人们应该了解的大数据术语列表: 以下进行一个简短的回顾,以前曾经介绍了算法,分析,描述性分析,预处理分析,预测分析,批处理,Cassandra,云计算,集群计算,暗数据,数据湖,数据挖掘,数据科学家,分布式文件系统,ETL,Hadoop,内存计算,物联网,机器学习,Mapreduce,NoSQL,R,Spark,流处理,结构化。非结构化数据等25个大数据的术语,现在再了解一下50个大数据术语。 Apache软件基金会(ASF):提供了许多大数据的开源项目,目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证。 Apache Kafka:以著名的捷克作家命名的Apache Kafka用于构建实时数据流管道和流媒体应用程序。为什么这么受欢迎?因为它能够以容错的方式存储,管理和处理数据流,并且十分快速。鉴于社交网络环境处理数据流,Kafka目前非常受欢迎。 ApacheMahout:Mahout提供了一个用于机器学习和数据挖掘的预制算法库...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2全家桶,快速入门学习开发网站教程