Hadoop 3.1.1伪分布式模式安装

2018-12-13 665

Hadoop 3.1.1伪分布式模式安装

视频

Hadoop 3.1.1伪分布式模式安装(bilibili视频) : https://www.bilibili.com/video/av38149957/
Hadoop 3.1.1伪分布式模式安装(youtube视频) : https://youtu.be/plVkuyJSNF8

前置条件

jdk.1.8.0_191 已安装
linux 系统(本文选用的centos 7 系统已完装好)

技能标签

学会安装Hadoop3.1.1版本的伪分布式模式
可以进行Hadoop技术开发(包括HDFS,MapReduce等)
HDFS启动停止命令，yarn启动停止命令
官网自带WorldCount示例运行
进行管理界面管理NamenNode管理和ResourceManager管理
对Hadoop集群环境操作(一台机器也可以做集群，只是节点只有一个，很多功能都可以操作)

安装步骤

安装ssh

一般安装系统后都已自带ssh服务，就可以跳过,直接在终端执行ssh命令，有这个命令就可以
如果没有需要安装如下服务

yum install ssh
yum install pdsh

下载Hadoop安装包

官网下载地址:https://hadoop.apache.org/releases.html
本文下载版本: hadoop-3.1.1.tar.gz
http://apache.01link.hk/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
解压压缩包

tar -zxvf /hadoop-3.1.1.tar.gz  -C /opt/module/bigdata

配置

hadoop-env.sh

编辑etc/hadoop/hadoop-env.sh
调置JAVA_HOME环境变量

# set to the root of your Java installation
  export JAVA_HOME=/opt/module/jdk/jdk1.8.0_191

执行命令 Hadoop

确认hadoop命令是否可以正常执行
查看当前版本命令

bin/hadoop version

独立模式

本地模式

执行官方自带示例

mkdir input
  $ cp etc/hadoop/*.xml input
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'
  $ cat output/*

伪分布式模式

配置环境变量

配置在本地用户下 ~/.bashrc

export HADOOP_HOME=/opt/module/bigdata/hadoop-3.1.1
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置core-site.xml

配置文件 etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

配置hdfs-site.xml

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

配置 ssh免密登录

验证是否已经配置 ssh

ssh localhost

如果需要输入密码验证，则执行以下

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  $ chmod 0600 ~/.ssh/authorized_keys

也可以执行以下

ssh-keygen 
ssh-copy-id 远程ip地址

格式化namenode

 bin/hdfs namenode -format

启动namenode和datanode

sbin/start-dfs.sh

$HADOOP_LOG_DIR directory (defaults to $HADOOP_HOME/logs).

访问namenode

NameNode - http://localhost:9870/

HDFS上新建目录

bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>

上传本机文件到HDFS上

bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input

运行示例

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'

查看示例输出结果(先下到本地再看)

 bin/hdfs dfs -get output output
 $ cat output/*

查看HDFS上的文件内容

 bin/hdfs dfs -cat output/*

停止namemode和datanode

sbin/stop-dfs.sh

hadoop-daemon.sh命令

 hdfs --daemon start namenode
 hdfs --daemon start datanode
 hdfs --daemon stop namenode
 hdfs --daemon stop datanode

HDFS命令操作

hdfs dfs -mkdir -p /home/liuwen/data

上传本地文件到HDFS

hdfs dfs -put /opt/temp/a.txt  /home/liuwen/data

查看HDFS文件

hdfs dfs -text  /home/liuwen/data/a.txt

YARN 配置伪分布式模式

配置文件mapred-site.xml

etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

<configuration>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

配置文件mapred-site.xml

etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

启动YARN

启动 ResourceManager daemon 和 NodeManager daemon

sbin/start-yarn.sh

访问资源管理器

ResourceManager: http://localhost:8088/

停止YARN

停止 ResourceManager daemon 和 NodeManager daemon

sbin/stop-yarn.sh

WorldCount官网示例运行

配置环境变量直接运行 hadoop命令
worldcount标签，examples自带运行对应的程序
输入数据源
输出数据源


hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar wordcount  /opt/data/a.txt  /opt/temp/output/output_2

end

微信关注我们

原文链接：https://yq.aliyun.com/articles/679496

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

HBase-拆分合并和调优参考

本篇文章不是自己总结的,而是参考资料上进行摘抄的,本文涉及到HBase的Region拆分合并以及HFile拆分合并以及其他的调优参考,如果你参考本文的话,请一定在尝试之后在修改配置,本文只是自己的一个学习记录方便以后查阅参考了 HBase权威指南和 HBase不睡觉书尽信书不如无书,在使用的时候需要先测试!!!!! 调大堆内存默认RegionServer的内存是1GB,而MemStore默认是占百分之四十,所以MemStore才有400MB空间,在实际应用中,很容易就会被写阻塞了,可以通过指定HBASE_HEAPSIZE参数来调整所有HBase实例占用的内存大小,不管是Master还是RegionServer #在hbase-env.sh中 # The maximum amount of heap to use. Default is left to JVM default. export HBASE_HEAPSIZE=4G #原来是1G,现在修改为4G 上面参数会影响整个HBase实例,包括master和region,这样的话master和RegionServer都会占用4G...

2018-12-14

790

Spark 读取 Hbase 优化 --手动划分 region 提高并行数

一. Hbase 的 region 我们先简单介绍下 Hbase 的架构和 region ：从物理集群的角度看，Hbase 集群中，由一个 Hmaster 管理多个 HRegionServer，其中每个 HRegionServer 都对应一台物理机器，一台 HRegionServer 服务器上又可以有多个 Hregion（以下简称 region）。要读取一个数据的时候，首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候，读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。所以当 region 存储设置得比较大导致 region 比较少，而 spark 的 cpu core 又比较多的时候，就会出现无法充分利用 spark 集群所有 cpu core 的情况。我们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。 Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动spli...

2018-12-15

505

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Eclipse

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。