hadoop伪分布式2.4.1安装-低调大师

hadoop伪分布式2.4.1安装

2017-11-14 494

一、准备：

1、修改主机名：

vi /etc/sysconfig/network内容如下：

NETWORKING=yes

HOSTNAME=myHadoop

2、修改主机名和IP的映射关系，即hosts文件：

vi /etc/hosts

192.168.127.150 myHadoop

3、关闭防火墙：

3.1、查看防火墙状态

service iptables status

3.2、关闭防火墙

service iptables stop

3.3、查看防火墙开机启动状态

chkconfig iptables --list

3.4、关闭防火墙开机启动

chkconfig iptables off

4、重启Linux：

reboot/shutdown -r now

二、安装JDK：

1、解压：

tar -zxvf jdk-7u55-linux-i586.tar.gz -C /opt/tool

2、将java添加到环境变量中：

sudo vi /etc/profile

#在文件最后添加

export JAVA_HOME=/opt/tool/jdk-7u_65-i585

export PATH=$PATH:$JAVA_HOME/bin

#刷新配置

source /etc/profile

#验证：java -version

java version "1.7.0_65"

Java(TM) SE Runtime Environment (build 1.7.0_65-b17)

Java HotSpot(TM) Client VM (build 24.65-b04, mixed mode)

三、安装hadoop2.4.1：

1、解压：

tar -zxvf hadoop-2.4.1.tar.gz -C /opt/tool

2、将hadoop添加到环境变量中

sudo vi /etc/profile

#在文件最后添加

export HADOOP_HOME=/opt/tool/hadoop-2.4.1

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

#刷新配置

source /etc/profile

#验证：hadoop version

Hadoop 2.4.1

Subversion http://svn.apache.org/repos/asf/hadoop/common -r 1604318

Compiled by jenkins on 2014-06-21T05:43Z

Compiled with protoc 2.5.0

From source with checksum bb7ac0a3c73dc131f4844b873c74b630

This command was run using /opt/tool/hadoop-2.4.1/share/hadoop/common/hadoop-common-2.4.1.jar

3、配置hadoop：

3.1：hadoop-env.sh

vim hadoop-env.sh

#第27行

export JAVA_HOME=/opt/tool/jdk-7u_65-i585

3.2：core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://hadoopnode0:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/tool/hadoop-2.4.1/tmp</value>

</property>

3.3：hdfs-site.xml hdfs-default.xml (3)

<name>dfs.replication</name>

</property>

3.4：mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)

mv mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

3.5：yarn-site.xml

<name>yarn.resourcemanager.hostname</name>

<value>hadoopnode0</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

3.6：格式化namenode

（是对namenode进行初始化,只有在第一次安装时执行格式化，切记切记，否则数据丢失。）

hdfs namenode -format (或者hadoop namenode -format)

3.7：启动hadoop：

#先启动HDFS：start-dfs.sh，启动了一下进程：

NameNode

SecondaryNameNode

DataNode

#再启动YARN：start-yarn.sh，启动了一下进程：

NodeManager

ResourceManager

3.8：验证是否启动成功

使用jps命令验证

22303 NameNode

22216 Jps

27643 SecondaryNameNode

25566 NodeManager

25603 ResourceManager

27812 DataNode

http://192.168.1.201:50070 （HDFS管理界面）

http://192.168.1.201:8088 （MR管理界面）

4、NameNode：

是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，

文件/目录的元数据信息和每个文件对应的数据库列表。接收用户的操作请求。

元数据信息保存在fsimage和edit中，fsimage保存的是合并后的元数据信息，而edit保存的是实时的元数据信息。

5、DataNode：

提供真实文件数据的存储服务。文件存储时，是以block为单位进行存储的。

文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，

那么从文件的0偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块

称为一个block。HDFS默认block大小为128MB，以一个256MB文件为例，可以分割为2个Block。

6、SecondaryNameNode ：

用来合并fsimage和edit。

本文转自lzf0530377451CTO博客，原文链接：http://blog.51cto.com/8757576/1827475 ，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/513202

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hadoop hdfs实现机制

NameNode：负责元数据管理。 DataNode：负责存储数据。本文转自lzf0530377451CTO博客，原文链接：http://blog.51cto.com/8757576/1836746，如需转载请自行联系原作者

2017-11-15

552

RDD的5大特点 1）有一个分片列表，就是能被切分，和Hadoop一样，能够切分的数据才能并行计算。一组分片（partition），即数据集的基本组成单位，对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。每个分配的存储是由BlockManager实现的，每个分区都会被逻辑映射成BlockManager的一个Block，而这个Block会被一个Task负责计算。 2）由一个函数计算每一个分片，这里指的是下面会提到的compute函数。 Spark中的RDD的计算是以分片为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。 3）对其他RDD的依赖列表，依赖还具体分为宽依赖和窄依赖，但并不是所有的RDD都有依赖。 RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖...

2017-11-15

600

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。