Hadoop 3.x 新特性剖析系列1

2018-04-13 711

1.概述

　　目前从Hadoop官网的Wiki来看，稳定版本已经发行到Hadoop2.9.0，最新版本为Hadoop3.1.0，查阅JIRA，社区已经着手迭代Hadoop3.2.0。那么，今天笔者就带着大家来剖析一下Hadoop3，看看它给我们带来了哪些新特性。

2. 内容

　　从功能上来说，Hadoop3比Hadoop2有些功能得到了增强，具体增加了哪些，后面再讲。首先，我们来看看Hadoop3主要带来了哪些变化：

JDK：在Hadoop2时，可以使用JDK7，但是在Hadoop3中，最低版本要求是JDK8，所以低于JDK8的版本需要对JDK进行升级，方可安装使用Hadoop3
EC技术：Erasure Encoding 简称EC，是Hadoop3给HDFS拓展的一种新特性，用来解决存储空间文件。EC技术既可以防止数据丢失，又能解决HDFS存储空间翻倍的问题
YARN：提供YARN的时间轴服务V.2，以便用户和开发人员可以对其进行测试，并提供反馈意见，使其成为YARN Timeline Service v.1的替代品。
优化Hadoop Shell脚本
重构Hadoop Client Jar包
支持随机Container
MapReduce任务级本地优化
支持多个NameNode
部分默认服务端口被改变
支持文件系统连接器
DataNode内部添加了负载均衡
重构后台程序和任务对管理

下面，笔者就为大家来一一剖析这些新特性的具体内容，其内容包含JDK版本、EC技术、YARN的时间轴服务这三类特性，其他特性笔者在后面的博客再为大家慢慢剖析。

2.1 JDK

　　在Hadoop 3中，所有的Hadoop JAR包编译的环境都是基于Java8来完成的，所有如果仍然使用的是Java 7或者更低的版本，你可能需要升级到Java 8才能正常的运行Hadoop3。如下图所示：

2.2 EC技术

　　首先，我们先来了解一下什么是Erasure Encoding。如下图所示：

　　一般来说，在存储系统中，EC技术主要用于廉价磁盘冗余阵列，即RAID。如上图，RAID通过Stripping实现EC技术，其中逻辑顺序数据（比如：文件）被划分成更小的单元（比如：位、字节或者是块），并将连续单元存储在不同的磁盘上。

　　然后，对原始数据单元的每个Stripe，计算并存储一定数量的奇偶校验单位。这个过程称之为编码，通过基于有效数据单元和奇偶校验单元的解码计算，可以恢复任意Stripe单元的错误。当我们想到了擦除编码的时候，我们可以先来了解一下在Hadoop2中复制的早期场景。如下图所示：

　　HDFS默认情况下，它的备份系数是3，一个原始数据块和其他2个副本。其中2个副本所需要的存储开销各站100%，这样使得200%的存储开销，会消耗其他资源，比如网络带宽。然而，在正常操作中很少访问具有低IO活动的冷数据集的副本，但是仍然消耗与原始数据集相同的资源量。

　　对于EC技术，即擦除编码存储数据和提供容错空间较小的开销相比，HDFS复制，EC技术可以代替复制，这将提供相同的容错机制，同时还减少了存储开销。如下图所示：

　　EC和HDFS的整合可以保持与提供存储效率相同的容错。例如，一个副本系数为3，要复制文件的6个块，需要消耗6*3=18个块的磁盘空间。但是，使用EC技术（6个数据块，3个奇偶校验块）来部署，它只需要消耗磁盘空间的9个块（6个数据块+3个奇偶校验块）。这些与原先的存储空间相比较，节省了50%的存储开销。

　　由于擦除编码需要在执行远程读取时，对数据重建带来额外的开销，因此他通常用于存储不太频繁访问的数据。在部署EC之前，用户应该考虑EC的所有开销，比如存储、网络、CPU等。

2.3 YARN的时间线V.2服务

　　Hadoop引入YARN Timeline Service v.2是为了解决两个主要问题：

提高时间线服务的可伸缩性和可靠性；
通过引入流和聚合来增强可用性

　　下面首先，我们来剖析一下它伸缩性。

2.3.1 伸缩性

　　YARN V1仅限于读写单个实例，不能很好的扩展到小集群之外。YARN V2使用了更具有伸缩性的分布式体系架构和可扩展的后端存储，它将数据的写入与数据的读取进行了分离。并使用分布式收集器，本质上是每个YARN应用的收集器。读则是独立的实例，专门通过REST API服务来查询

2.3.2 可用性

　　对于可用性的改进，在很多情况下，用户对流或者YARN应用的逻辑组的信息比较感兴趣。启动一组或者一系列的YARN应用程序来完成逻辑应用是很常见的。如下图所示：

2.3.3 架构体系

　　YARN时间线服务V2采用了一组收集器写数据到后端进行存储。收集器被分配并与它们专用的应用程序主机进行协作，如下图所示，属于该应用程序的所有数据都被发送到应用程序时间轴的收集器中，但是资源管理器时间轴收集器除外。

　　对于给定的应用程序，应用程序可以将数据写入同一时间轴收集器中。此外，为应用程序运行容器的其他节点的节点管理器，还会向运行应用程序主节点的时间轴收集器写入数据。资源管理器还维护自己的时间手机线收集器，它只发布YARN的通用生命周期事件，以保持其写入量合理。时间的读取器是单独的守护进程从收集器中分离出来的，它旨在服务于REST API查询操作。

3.总结

　　本篇博客先给大家剖析前面几个特性，其内容由JDK的版本升级、EC技术的作用及优势、YARN的时间轴V2版本的主要作用。Hadoop3后面的几个特性，在下一篇博客为大家再剖析。

4.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

联系方式：
邮箱：smartloli.org@gmail.com
Twitter： https://twitter.com/smartloli
QQ群（Hadoop - 交流社区1）： 424769183
温馨提示：请大家加群的时候写上加群理由（姓名＋公司/学校），方便管理员审核，谢谢！

热爱生活，享受编程，与君共勉！

作者：哥不是小萝莉［关于我］［犒赏］

出处：http://www.cnblogs.com/smartloli/

转载请注明出处，谢谢合作！

微信关注我们

原文链接：https://yq.aliyun.com/articles/583271

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

JavaEE课程概述 && JavaEE基础班课程概述 && JavaEE就业班课程概述

JavaEE课程概述阶段知识点概述能解决的问题市场价值 Java基础阶段计算机基础知识编程基础面向对象异常图形化界面常用类介绍集合IO多线程网络编程数据存储综合案例学生具备javase本地应用开发能力能够在本机开发一些应用软件例如：压缩软件、下载软件、聊天软件、模拟DOS系统、综合信息管理软件￥5000 JavaWeb+SSH框架阶段 HTMLCSSJavaScriptJQueryBootStarp响应式页面MySQLJDBC服务器端技术：WEB通信、Tomcat服务器，Servlet、request、response、Cookie、session、jsp、EL、JSTL过滤器、监听器AJAX技术传智商城文件上传与下载Linux服务器部署Nginx+Tomcat搭建集群完成负载均衡部署到阿里云Struts2框架学习Hibernate框架学习Spring框架学习Maven 学生具备简单网站的开发能力，并结合阿里云，具备了真实环境的项目部署能力，已经能够在企业担任javaee工程师开发岗位￥8000 综合项目实战阶段一 OracleWebServiceJQueryEasyU...

2018-04-12

693

Apache HBase Backup/Restore 方案本文开始我们会介绍Apache HBase关于Backup/Restore的方案，虽然HBase2.0的release 版本里面并不会带有该功能，但是我们ApsaraDB for HBase会对应的提供该功能。我们经常会听到“某某某DBA误操作把整张表删了”，“某某磁盘故障，造成数据库的某个库的数据全部损坏了”。这种由于外在和内在的原因造成的数据不可靠，最终会给用户带来毁灭性的灾难。所以基本上所有的数据库都会对应的提供Backup/Restore的方案，以防用户误操物理上删除了一整个表或者别的问题造成的悲剧；一般通过定时的做备份无论是全量数据做备份还是对增量数据做备份，此外一旦遇到上面提到“悲剧”，通过一键命令就可以恢复数据；本文开始我们大概的文章架

2018-04-13

684

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

Hadoop 3.x 新特性剖析系列1

1.概述

2. 内容

2.1 JDK

2.2 EC技术