Giraph源码分析（四）—— Master 如何检查Worker启动成功-低调大师

Giraph源码分析（四）—— Master 如何检查Worker启动成功

2019-07-25 690

本文的目的

说明Giraph如何借助ZooKeeper来实现Master与Workers间的同步（不太确定）。

环境

在单机上（机器名：giraphx）启动了2个workers。

Giraph遵从单Master多Workers结构，BSPServiceMaster使用MasterThread线程来进行全局的同步。每个Worker启动成功后，会向Master汇报自身的健康状况，那么Master是如何检测Workers是否都成功启动了？

Master在ZooKeeper上创两个目录，_workerHealthyDir和 _workerUnhealthyDir，分别用来记录Healthy Workers和UnHealthy Workers。

主要在BspServiceMaster类中的getAllWorkerInfos()方法来完成，其调用关系如下，注意下getAllWorkerInfos()到MasterThread.run()方法调用关系，比较难找。

创建的两个目录如下：

/_hadoopBsp/job_201404102333_0002/_applicationAttemptsDir/0/_superstepDir/-1/_workerHealthyDir /_hadoopBsp/job_201404102333_0002/_applicationAttemptsDir/0/_superstepDir/-1/_workerUnhealthyDir

每个Worker在setup()中，调用registerHealth()方法来注册自身的状态。

若自身是Healthy的，则在_workerHealthyDir目录下添加子节点 /wokerInfo.getHostNameId()，否则在_workerUnhealthyDir目录下添加。wokerInfo.getHostNameId()为：Hostname+“_”+TaskId。 Task1和Task2 （Task 0是master）创建的子节点如下：

/_hadoopBsp/job_201404102333_0002/_applicationAttemptsDir/0/_superstepDir/-1/_workerHealthyDir/giraphx_1
/_hadoopBsp/job_201404102333_0002/_applicationAttemptsDir/0/_superstepDir/-1/_workerHealthyDir/giraphx_2

Master 在checkWorkers()方法中，在While死循环中（实际有超时限制），通过调用getAllWorkerInfos()方法来获取_workerHealthyDir目录下的子节点，然后比较子节点数目是否达到maxWorkers(启动job时定义的，-w参数)。

若小于maxWorkers，则继续调用getAllWorkerInfos()方法进行下一轮检测；若等于maxWorker，退出While循环，然后返回healthyWorkersInfoList：[Worker(hostname=giraphx, MRtaskID=1, port=30001), Worker(hostname=giraphx, MRtaskID=2, port=30002)] 。

问题：由于在分布式环境中，每个Worker和Maste都是并行运行，彼此不知道对方的运行情况。上述第3步骤中，若还有子节点还没有创建，就一直在while死循环中调用来检测getAllWorkerInfos()方法检测，效率比较低下，当然也比较笨！

Giraph借用ZooKeeper来高效的进行检测。设计理念如下：

master在获取子节点时，注册Watcher（为注册器，用于触发相应事件）。

若某个task创建了子节点后，就会触发Watcher事件。

若子节点数目小于maxWorkers，就调用 workerHealthRegistrationChanged的await()方法释放当前线程的锁，陷入等待状态。不会进行无用的检测。

说明：workerHealthRegistrationChanged为PredicateLock类型（implements BspEvent接口），PredicateLock里面使用可重入锁 ReentrantLock和Condition进行线程的控制。

当某个task创建了子节点后，触发Watcher事件。

调用BspService中的public final void Process(WatchedEvent event)事件，该方法根据事件的路径来激活相应的BspEvent事件。此处对应的是：

实验运行如下：

s(926)) - process: Got a new event, path = /_hadoopBsp/job_201404102333_0002/_applicationAttemptsDir/0/_superstepDir/-1/_workerHealthyDir, type = NodeChildrenChanged, state = SyncConnected INFO bsp.BspService (BspService.java:process(960)) - process: workerHealthRegistrationChanged (worker health reported - healthy/unhealthy )

这样就会激活master线程，开始下一轮检测。

子节点数目等于maxWorkers时，就停止。

总结：每创建一个子节点时，才会进行一次检测，效率较高！

微信关注我们

原文链接：https://yq.aliyun.com/articles/710892

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

LinkedHashMap代码详解(一)

HashMap 在遍历map时，数据是无序的，在某些需要按照put顺序遍历时，就用到了LinkedHashMap，LinkedHashMap是HashMap的子类，并且用一条双向链表来存储数据插入的顺序 transient LinkedHashMap.Entry<K,V> head; //链表的头节点 transient LinkedHashMap.Entry<K,V> tail; //链表的尾节点 final boolean accessOrder; //是否开启lru算法(最活跃的点放在链表头部) put(): 由于LinkedHashMap没有put方法，put操作用的还是HashMap的方法，但是重写了newNode(int hash, K key, V value, Node e) ，afterNodeAccess(Node e),afterNodeInsertion(boolean evict)方法1 table中不存在相同的key if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = new...

2019-07-25

648

背景业务上一个新业务上线，发现CPU使用率较高，我们的业务特点一般是IO密集型，所以一般呈现CPU使用率较低，但是QPS较高的特点，所以对这个特殊的服务进行性能分析，以下是分析过程。网络性能分析新应用上线，发现CPU较高，如图所示从cpu使用率的细节发现%si中断使用率集中在cpu0上，查看中断类型发现硬中断的处理集中在CPU0上，推断网卡不支持多队列特性果然推断正确，然后决定找两台网卡支持多队列的机器对比性能从监控中可以看到，两种机型在P999的接口响应延迟上相差一倍 CPU使用率还没分析跑题了，前面分析CPU的过程中无意间发现了中断不平均的问题，但并不是我们CPU使用率高的原因，CPU主要还是%us高，回来分析CPU使用率，由于代码不是本人所写，不会直接去分析代码，那样无异于大海捞针，拿出珍藏的perf大法，生成火焰图分析。 CPU火焰图的生成方法参考前面的文章：使用FlameGraph分析JAVA应用性能 Docker中使用FlameGraph分析JVM应用性能生成的火焰图如下： http://oss.zrbcool.top/picgo/ad-data-web...

2019-07-25

753

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。