Hadoop 3.1.1伪分布式模式安装
Hadoop 3.1.1伪分布式模式安装
更多资源
github: https://github.com/opensourceteams/hadoop-java-maven-3.1.1
视频
- Hadoop 3.1.1伪分布式模式安装(bilibili视频) : https://www.bilibili.com/video/av38149957/
- Hadoop 3.1.1伪分布式模式安装(youtube视频) : https://youtu.be/plVkuyJSNF8
前置条件
- jdk.1.8.0_191 已安装
- linux 系统(本文选用的centos 7 系统已完装好)
技能标签
- 学会安装Hadoop3.1.1版本的伪分布式模式
- 可以进行Hadoop技术开发(包括HDFS,MapReduce等)
- HDFS启动停止命令,yarn启动停止命令
- 官网自带WorldCount示例运行
- 进行管理界面管理NamenNode管理和ResourceManager管理
- 对Hadoop集群环境操作(一台机器也可以做集群,只是节点只有一个,很多功能都可以操作)
安装步骤
安装ssh
- 一般安装系统后都已自带ssh服务,就可以跳过,直接在终端执行ssh命令,有这个命令就可以
- 如果没有需要安装如下服务
yum install ssh yum install pdsh
下载Hadoop安装包
- 官网下载地址:https://hadoop.apache.org/releases.html
- 本文下载版本: hadoop-3.1.1.tar.gz
- http://apache.01link.hk/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
- 解压压缩包
tar -zxvf /hadoop-3.1.1.tar.gz -C /opt/module/bigdata
配置
hadoop-env.sh
- 编辑etc/hadoop/hadoop-env.sh
- 调置JAVA_HOME环境变量
# set to the root of your Java installation export JAVA_HOME=/opt/module/jdk/jdk1.8.0_191
执行命令 Hadoop
- 确认hadoop命令是否可以正常执行
- 查看当前版本命令
bin/hadoop version
独立模式
- 本地模式
执行官方自带示例
mkdir input $ cp etc/hadoop/*.xml input $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+' $ cat output/*
伪分布式模式
配置环境变量
- 配置在本地用户下 ~/.bashrc
export HADOOP_HOME=/opt/module/bigdata/hadoop-3.1.1 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
配置core-site.xml
- 配置文件 etc/hadoop/core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
配置hdfs-site.xml
- etc/hadoop/hdfs-site.xml:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
配置 ssh免密登录
- 验证是否已经配置 ssh
ssh localhost
- 如果需要输入密码验证,则执行以下
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys
- 也可以执行以下
ssh-keygen ssh-copy-id 远程ip地址
格式化namenode
bin/hdfs namenode -format
启动namenode和datanode
sbin/start-dfs.sh
- 可配置日志输出目录
$HADOOP_LOG_DIR directory (defaults to $HADOOP_HOME/logs).
访问namenode
- NameNode - http://localhost:9870/
HDFS上新建目录
bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>
上传本机文件到HDFS上
bin/hdfs dfs -mkdir input $ bin/hdfs dfs -put etc/hadoop/*.xml input
运行示例
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'
查看示例输出结果(先下到本地再看)
bin/hdfs dfs -get output output $ cat output/*
查看HDFS上的文件内容
bin/hdfs dfs -cat output/*
停止namemode和datanode
sbin/stop-dfs.sh
hadoop-daemon.sh命令
hdfs --daemon start namenode hdfs --daemon start datanode hdfs --daemon stop namenode hdfs --daemon stop datanode
HDFS命令操作
- 在HDFS上新建目录
hdfs dfs -mkdir -p /home/liuwen/data
- 上传本地文件到HDFS
hdfs dfs -put /opt/temp/a.txt /home/liuwen/data
- 查看HDFS文件
hdfs dfs -text /home/liuwen/data/a.txt
YARN 配置伪分布式模式
配置文件mapred-site.xml
- etc/hadoop/mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> <configuration> <property> <name>mapreduce.application.classpath</name> <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value> </property> </configuration>
配置文件mapred-site.xml
- etc/hadoop/yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.env-whitelist</name> <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value> </property> </configuration>
启动YARN
- 启动 ResourceManager daemon 和 NodeManager daemon
sbin/start-yarn.sh
访问资源管理器
- ResourceManager: http://localhost:8088/
停止YARN
- 停止 ResourceManager daemon 和 NodeManager daemon
sbin/stop-yarn.sh
WorldCount官网示例运行
- 配置环境变量直接运行 hadoop命令
- worldcount标签,examples自带运行对应的程序
- 输入数据源
- 输出数据源
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar wordcount /opt/data/a.txt /opt/temp/output/output_2
end
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
HBase-拆分合并和调优参考
本篇文章不是自己总结的,而是参考资料上进行摘抄的,本文涉及到HBase的Region拆分合并以及HFile拆分合并以及其他的调优参考,如果你参考本文的话,请一定在尝试之后在修改配置,本文只是自己的一个学习记录方便以后查阅 参考了 HBase权威指南 和 HBase不睡觉书 尽信书不如无书,在使用的时候需要先测试!!!!! 调大堆内存 默认RegionServer的内存是1GB,而MemStore默认是占百分之四十,所以MemStore才有400MB空间,在实际应用中,很容易就会被写阻塞了,可以通过指定HBASE_HEAPSIZE参数来调整所有HBase实例占用的内存大小,不管是Master还是RegionServer #在hbase-env.sh中 # The maximum amount of heap to use. Default is left to JVM default. export HBASE_HEAPSIZE=4G #原来是1G,现在修改为4G 上面参数会影响整个HBase实例,包括master和region,这样的话master和RegionServer都会占用4G...
- 下一篇
Spark 读取 Hbase 优化 --手动划分 region 提高并行数
一. Hbase 的 region 我们先简单介绍下 Hbase 的 架构和 region : 从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又可以有多个 Hregion(以下简称 region)。要读取一个数据的时候,首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候,读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。所以当 region 存储设置得比较大导致 region 比较少,而 spark 的 cpu core 又比较多的时候,就会出现无法充分利用 spark 集群所有 cpu core 的情况。 我们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。 Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。在自动spli...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6