Hadoop系统架构-低调大师

Hadoop系统架构

2015-10-09 810

一、Hadoop系统架构图

Hadoop1.0与hadoop2.0架构对比图

YARN架构:

ResourceManager

–处理客户端请求

–启动/监控ApplicationMaster

–监控NodeManager

–资源分配与调度

NodeManager

–单个节点上的资源管理

–处理来自ResourceManager的命令

–处理来自ApplicationMaster的命令

ApplicationMaster

–数据切分

–为应用程序申请资源，并分配给内部任务

–任务监控与容错

YARN作业处理流程:

步骤1　用户向YARN 中提交应用程序，其中包括ApplicationMaster 程序、启动ApplicationMaster 的命令、用户程序等。

步骤2　ResourceManager 为该应用程序分配第一个Container，并与对应的NodeManager 通信，要求它在这个Container 中启动应用程序的ApplicationMaster。

步骤3　ApplicationMaster 首先向ResourceManager 注册，这样用户可以直接通过ResourceManage 查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7。

步骤4　ApplicationMaster 采用轮询的方式通过RPC 协议向ResourceManager 申请和领取资源。

步骤5　一旦ApplicationMaster 申请到资源后，便与对应的NodeManager 通信，要求它启动任务。

步骤6　NodeManager 为任务设置好运行环境（包括环境变量、JAR 包、二进制程序

等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。

步骤7　各个任务通过某个RPC 协议向ApplicationMaster 汇报自己的状态和进度，以让ApplicationMaster 随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程中，用户可随时通过RPC 向ApplicationMaster 查询应用程序的当

前运行状态。

步骤8　应用程序运行完成后，ApplicationMaster 向ResourceManager 注销并关闭自己。

运行在YARN上带来的好处：

–一个集群部署多个版本

–计算资源按需伸缩

–不同负载应用混搭，集群利用率高

–共享底层存储，避免数据跨集群迁移

Hadoop 2.0 HA实现方式说明:

利用共享存储在两个NN间同步edits信息,如NFS等中高端存储设备内部的各种RAID以及冗余硬件

DataNode同时向两个NN汇报块信息，让Standby NN保持集群最新状态

用FailoverController watchdog进程监视和控制NN进程，防止因 NN FullGC挂起无法发送heart beat

防止脑裂（brain-split）：主备切换时由于切换不彻底等原因导致Slave误以为出现两个active master，通常采用Fencing机制：

-共享存储fencing，确保只有一个NN可以写入edits

-客户端fencing，确保只有一个NN可以响应客户端的请求

- DN fencing，确保只有一个NN可以向DN下发删除等命令

HDFS文件读取：

HDFS文件写入:

MapReduce基本流程:

从MapReduce 自身的命名特点可以看出， MapReduce 由两个阶段组成：Map 和Reduce。用户只需编写map() 和 reduce() 两个函数，即可完成简单的分布式程序的设计。

map() 函数以key/value 对作为输入，产生另外一系列 key/value 对作为中间输出写入本地磁盘。 MapReduce 框架会自动将这些中间数据按照 key 值进行聚集，且key 值相同（用户可设定聚集策略，默认情况下是对 key 值进行哈希取模）的数据被统一交给 reduce() 函数处理。

reduce() 函数以key 及对应的value 列表作为输入，经合并 key 相同的value 值后，产生另外一系列 key/value 对作为最终输出写入HDFS

hello world --WordCount

用户编写完MapReduce 程序后，按照一定的规则指定程序的输入和输出目录，并提交到Hadoop 集群中。作业在Hadoop 中的执行过程如图所示。Hadoop 将输入数据切分成若干个输入分片（input split，后面简称split），并将每个split 交给一个Map Task 处理；Map Task 不断地从对应的split 中解析出一个个key/value，并调用map() 函数处理，处理完之后根据Reduce Task 个数将结果分成若干个分片（partition）写到本地磁盘；同时，每个Reduce Task 从每个Map Task 上读取属于自己的那个partition，然后使用基于排序的方法将key 相同的数据聚集在一起，调用reduce() 函数处理，并将结果输出到文件中

微信关注我们

原文链接：https://yq.aliyun.com/articles/609188

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop常用命令

HDFS基本命令:hadoop fs -cmdcmd: 具体的操作，基本上与UNIX的命令行相同args:参数HDFS资源URI格式：scheme://authority/pathscheme：协议名，file或hdfsauthority：namenode主机名path：路径示例：hdfs://localhost:9000/user/chunk/test.txt假设已经在core-site.xml里配置了 fs.default.name=hdfs://localhost:9000，则仅使用/user/chunk/test.txt即可。hdfs默认工作目录为 /user/$USER，$USER是当前的登录用户名。HDFS命令示例：hadoop fs -mkdir /user/trunkhadoop fs -ls /userhadoop fs -lsr /user (递归的)hadoop fs -put test.txt /user/trunkhadoop fs -put test.txt . (复制到hdfs当前目录下，首先要创建当前目录)hadoop fs -get /user/tru...

2015-10-09

807

SparkSQL项目中的应用

Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。从Spark 1.0版本起，Spark开始支持Spark SQL，它最主要的用途之一就是能够直接从Spark平台上面获取数据。并且Spark SQL提供比较流行的Parquet列式存储格式以及从Hive表中直接读取数据的支持。之后，Spark SQL还增加了对JSON等其他格式的支持。到了Spark 1.3 版本Spark还可以使用SQL的方式进行DataFrames的操作。我们通过JDBC的方式通过前台业务逻辑执行相关sql的增删改查，通过远程连接linux对文件进行导入处理，使项目能够初步支持Spark平台，现如今已支持Spark1.4版本。 SparkSQL具有内置的SQL扩展的基类实现Catalyst，提供了...

2015-10-09

843

发表评论

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。