hadoop之 Yarn 调度器Scheduler详解

2017-11-11 578

概述

集群资源是非常有限的，在多用户、多任务环境下，需要有一个协调者，来保证在有限资源或业务约束下有序调度任务，YARN资源调度器就是这个协调者。

YARN调度器有多种实现，自带的调度器为Capacity Scheduler和Fair Scheduler。YARN资源调度器均实现Resource Scheduler接口，是一个插拔式组件，用户可以通过配置参数来使用不同的调度器，也可以自己按照接口规范编写新的资源调度器。默认情况下，YARN采用的是Capacity Scheduler调度器。

Capacity Scheduler

Capacity Scheduler简介

Capacity Scheduler（计算能力调度器）是由Yahoo贡献的，主要是解决HADOOP-3421中提出的，在调度器上完成HOD（Hadoop On Demand）功能，克服已有HOD的性能低效的缺点。它适合于多用户共享集群的环境的调度器。在多用户的情况下，达到最大化集群的吞吐和利用率的目的。

Capacity 调度器允许多个组织共享整个集群，每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源，这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外，队列内部又可以垂直划分，这样一个组织内部的多个成员就可以共享这个队列资源了，在一个队列内部，资源的调度是采用的是先进先出(FIFO)策略。

一个job可能使用不了整个队列的资源。然而如果这个队列中运行多个job，如果这个队列的资源够用，那么就分配给这些job，如果这个队列的资源不够用了呢？其实Capacity调度器仍可能分配额外的资源给这个队列，这就是弹性队列(queue elasticity)的概念。

在正常的操作中，Capacity调度器不会强制释放Container，当一个队列资源不够用时，这个队列只能获得其它队列释放后的Container资源。当然，我们可以为队列设置一个最大资源使用量，以免这个队列过多的占用空闲资源，导致其它队列无法使用这些空闲资源，这就是弹性队列需要权衡的地方。

Capacity Scheduler特点

容量保证：每个队列都分配了一部分容量，他们可以支配着部分资源。提交到特定队列的应用程序，可以使用该队列的资源。管理员可以配置每个队列容量的最低保证和资源使用上限。
安全性：每个队列都有严格的ACL（控制访问列表），它可以控制用户提交应用程序到特定队列上。同时保证用户不能查看或修改其它用户提交的应用程序，并且队列管理员和集群系统管理员可以对其进行维护。
灵活性：队列的空闲资源可以分配各其它队列使用。如果某队列的资源分配未达到队列资源使用上限，在其需要更多资源时，将分配其它队列的空闲资源给该繁忙队列。
多用户性：支持多用户共享集群，一些列的综合设置可以防止单个应用程序、用户或队列独占队里或集群的全部资源。
可操作性：支持运行时配置和队列停止。队列的属性（例如：资源容量分配、ACL等）可以在运行时由管理员以一种安全的方式更改，从而减少了对用户的影响。同时提供给管理员和用户一个界面，用于查看当前队列资源的使用情况。管理员可以在集群运行时添加新队列，可以在停止运行的队列的同时保证队列上的任务运行完成，而新的任务不能提交到该队列上。注意现在不支持在运行时删除队列，如果需要删除队列，需要重启集群。
层级队列：层级队列可确保资源在该组织的子队列之间被共享，从而提供更多的可控制性和预测性。
基于资源的调度：支持资源密集型的应用程序，允许应用程序使用的资源量高于默认值，从而该调度器可以支持不同资源需求的应用程序。目前只支持内存资源的配置，通过配置可支持CPU资源。

Fair Scheduler

Fair Scheduler是由Facebook贡献的，是Hadoop上一个可插拔式的调度器，允许YARN应用程序在一个大的集群上公平地共享资源。

公平调度是一种为应用程序分配资源的方法，多用户的情况下，强调用户公平地使用资源。默认情况下Fair Scheduler根据内存资源对应用程序进行公平调度，通过配置可以修改为根据内存和CPU两种资源进行调度。当集群中只有一个应用程序运行时，那么此应用程序占用这个集群资源。当其他的应用程序提交后，那些释放的资源将会被分配给新的应用程序，所以每个应用程序最终都能获取几乎一样多的资源。

在Fair Scheduler中，不需要预先占用一定的系统资源，Fair Scheduler会动态调整应用程序的资源分配。例如，当第一个大job提交时，只有这一个job在运行，此时它获得了所有集群资源；当第二个小任务提交后，Fair调度器会分配一半资源给这个小任务，让这两个任务公平的共享集群资源。

需要注意的是，在下图Fair Scheduler中，从第二个任务提交到获得资源会有一定的延迟，因为它需要等待第一个任务释放占用的Container。小任务执行完成之后也会释放自己占用的资源，大任务又获得了全部的系统资源。

Fair Scheduler将应用程序支持以队列的方式组织，这些队列之间公平的共享资源。默认，所有的用户共享一个队列。如果应用程序在请求资源时指定了队列，那么请求将会被提交到指定的队列中。也可以通过配置，根据用户名称来分配队列。在每个队列内部，应用程序基于内存公平共享或FIFO共享资源。

举个例子，假设有两个用户A和B，他们分别拥有一个队列。当A启动一个job而B没有任务时，A会获得全部集群资源；当B启动一个job后，A的job会继续运行，不过一会儿之后两个任务会各自获得一半的集群资源。如果此时B再启动第二个job并且其它job还在运行，则它将会和B的第一个job共享B这个队列的资源，也就是B的两个job会用于四分之一的集群资源，而A的job仍然用于集群一半的资源，结果就是资源最终在两个用户之间平等的共享。过程如下图所示：

Fair Scheduler允许为队列分配担最小的共享资源量，这样可以保证某些用户、groups或者应用程序总能获取充足的资源。当一个队列中有正在运行的应用程序时，它至少能够获取设置的最小资源，当队列中无任务时，它的资源将会被拆分给其他运行中的任务。

Fair Scheudler在默认情况下允许所有的任务运行，但是这也可以通过配置文件来限制每个用户下和每个队列下运行的任务个数。处于限制时，新提交的任务不会提交失败，而是在Scheduler queue中等待，直到先前的任务结束，再执行。

Fair Scheduler vs Capacity Scheduler

相同点
- 都支持多用户多队列，即：适用于多用户共享集群的应用环境
- 都支持层级队列
- 支持配置动态修改，更好的保证了集群的稳定运行。
- 均支持资源共享，即某个队列中的资源有剩余时，可共享给其他缺资源的队列
- 单个队列均支持优先级和FIFO调度方式
不同点
Capacity Scheduler与Fair Scheduler最大的区别为调度策略的不同
- Capacity Scheduler的调度策略是，可以先选择资源利用率低的队列，然后在队列中通过FIFO或DRF进行调度。
- Fair Scheduler的调度策略是，可以使用公平排序算法选择队列，然后再队列中通过Fair（默认）、FIFO或DRF的方式进行调度。

本文转自张冲andy 博客园博客，原文链接：http://www.cnblogs.com/andy6/p/8417809.html ，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/566014

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

spark之 spark 2.2.0 Standalone安装、wordCount演示

说明：前提安装好hadoop集群，可参考 http://blog.csdn.net/zhang123456456/article/details/77621487 一、 scala 安装 1、下载 scala 安装包：https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz 2、上传 scala 安装包 [root@hadp-master local]# pwd /usr/local [root@hadp-master local]# ll scala-2.11.7.tgz -rw-r--r--. 1 root root 28460530 Feb 25 03:53 scala-2.11.7.tgz 3、解压并删除安装包 [root@hadp-master local]# tar -zxvf scala-2.11.7.tgz [root@hadp-master local]# rm -rf scala-2.11.7.tgz 4、配置环境变量 vi /etc/profile 添加如下 export SCAL...

2017-11-11

573

1. 从输入到输出一个MapReducer作业经过了input，map，combine，reduce，output五个阶段，其中combine阶段并不一定发生，map输出的中间结果被分到reduce的过程成为shuffle（数据清洗）。在shuffle阶段还会发生copy（复制）和sort（排序）。在MapReduce的过程中，一个作业被分成Map和Reducer两个计算阶段，它们由一个或者多个Map任务和Reduce任务组成。如下图所示，一个MapReduce作业从数据的流向可以分为Map任务和Reduce任务。当用户向Hadoop提交一个MapReduce作业时，JobTracker则会根据各个TaskTracker周期性发送过来的心跳信息综合考虑TaskTracker的资源剩余量，作业优先级，作业提交时间等因素，为TaskTracker分配合适的任务。Reduce任务默认会在Map任务数量完成5%后才开始启动。 Map任务的执行过程可以概括为：首先通过用户指定的InputFormat类中的getSplits方法和next方法将输入文件切片并解析成键值对作为map函数的输入...

2017-11-11

608

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。