Hadoop-2.6.0NodeManager Restart Recover实现分析(一)

一、简介

      This document gives an overview of NodeManager (NM) restart, a feature that enables the NodeManager to be restarted without losing the active containers running on the node. At a high level, the NM stores any necessary state to a local state-store as it processes container-management requests. When the NM restarts, it recovers by first loading state for various subsystems and then letting those subsystems perform recovery using the loaded state.

      这个是官网的介绍。NodeManager Restart Recover是Hadoop-2.6.0全面引入的一个新特性。它旨在实现NodeManager在不丢失Active Containers、Localized Resource、Applications等的情况下的重启,NodeManager会使用Leveldb记录Containers、Localized Resource、Applications等的关键请求状态,在NodeManager重启后实现状态恢复等

二、开启

      如果要开启NodeManager重启特性,需要配置以下两个参数:

  <property>
    <description>Enable the node manager to recover after starting</description>
    <name>yarn.nodemanager.recovery.enabled</name>
    <value>true</value>
  </property>
  
  <property>
    <description>The local filesystem directory in which the node manager will
    store state when recovery is enabled.</description>
    <name>yarn.nodemanager.recovery.dir</name>
    <value>${hadoop.tmp.dir}/yarn-nm-recovery</value>
  </property>

三、实现范围

       NodeManager Restart Recover的实现范围如下:

      1、Localized Resource State Storage and Recovery
      2、Application State Storage and Recovery
      3、Container State Storage and Recovery
      4、NM Token State Storage and Recovery
      5、Container Token State Storage and Recovery
      6、Log Aggregation Recovery
      7、Auxiliary Service State Storage and Recovery 

四、实现分析

      1、NMStateStoreService引入

      首先,在NodeManager中,有一个NMStateStoreService组件,定义如下:

  private NMStateStoreService nmStore = null;

      这个NMStateStoreService组件就是NodeManager Restart Recover的具体实现,它实现了Containers、Localized Resource、Applications等关键事件状态的存储、恢复、删除的等;

      NMStateStoreService是一个抽象类,继承自AbstractService这个抽象服务,并在服务的serviceInit()、serviceStart()、serviceStop()等方法中分别调用了存储相关的initStorage(conf)、startStorage()、closeStorage()三个方法,分别完成存储的初始化、开始、结束等工作。

      以Applications为例,NMStateStoreService中定义了如下几个抽象方法:

  /**
   * Load the state of applications
   * @return recovered state for applications
   * @throws IOException
   */
  public abstract RecoveredApplicationsState loadApplicationsState()
      throws IOException;

  /**
   * Record the start of an application
   * @param appId the application ID
   * @param p state to store for the application
   * @throws IOException
   */
  public abstract void storeApplication(ApplicationId appId,
      ContainerManagerApplicationProto p) throws IOException;

  /**
   * Record that an application has finished
   * @param appId the application ID
   * @throws IOException
   */
  public abstract void storeFinishedApplication(ApplicationId appId)
      throws IOException;

  /**
   * Remove records corresponding to an application
   * @param appId the application ID
   * @throws IOException
   */
  public abstract void removeApplication(ApplicationId appId)
      throws IOException;

      这几个方法分别实现了应用的存储、已完成应用的存储、应用的删除、应用的加载(即恢复)等。大体流程是这样的,应用在NodeManager上初始化后即调用storeApplication()方法存储应用的状态(方便以后恢复),当ResourceManager指示Application完成后,storeFinishedApplication()方法被调用,以表明该Application已完成,而当NodeManager不再需要追踪该Application时,removeApplication()被调用以删除该Application的状态信息。最后,如果NodeManager需要重启,loadApplicationsState()方法被调用以实现需要恢复状态的Applications的状态恢复。

      2、NMStateStoreService实现

      NMStateStoreService组件的实现目前有两种:NMNullStateStoreService、NMLeveldbStateStoreService,而NMNullStateStoreService仅仅是空的NMStateStoreService组件,里面的上述关键方法,如initStorage(conf)、startStorage()、closeStorage()、storeApplication()等方法全部是空方法,而NMLeveldbStateStoreService则是上述参数配置后实现NodeManager Restart Recover的具体实现组件。

      3、NMStateStoreService初始化、启动与停止

      在NodeManager的serviceInit()方法中,有如下调用:

initAndStartRecoveryStore(conf);
      而initAndStartRecoveryStore()方法中,则会判断上述两个参数,完成NMStateStoreService的初始化,如下:

  private void initAndStartRecoveryStore(Configuration conf)
      throws IOException {
    boolean recoveryEnabled = conf.getBoolean(
        YarnConfiguration.NM_RECOVERY_ENABLED,
        YarnConfiguration.DEFAULT_NM_RECOVERY_ENABLED);
    if (recoveryEnabled) {
      FileSystem recoveryFs = FileSystem.getLocal(conf);
      String recoveryDirName = conf.get(YarnConfiguration.NM_RECOVERY_DIR);
      if (recoveryDirName == null) {
        throw new IllegalArgumentException("Recovery is enabled but " +
            YarnConfiguration.NM_RECOVERY_DIR + " is not set.");
      }
      Path recoveryRoot = new Path(recoveryDirName);
      recoveryFs.mkdirs(recoveryRoot, new FsPermission((short)0700));
      nmStore = new NMLeveldbStateStoreService();
    } else {
      nmStore = new NMNullStateStoreService();
    }
    nmStore.init(conf);
    nmStore.start();
  }
      当参数yarn.nodemanager.recovery.enabled配置成true时,NMStateStoreService初始化为NMLeveldbStateStoreService,并初始化存储路径yarn.nodemanager.recovery.dir,否则为NMNullStateStoreService。

      继而调用NMStateStoreService的init()和start()方法,完成初始化和启动。

      最后,当NodeManager服务停止时,在其serviceStop()方法中会调用stopRecoveryStore()方法,其会调用NMStateStoreService的stop()方法,停止存储服务。

      4、NMLeveldbStateStoreService实现分析

      在NMLeveldbStateStoreService中,具体实现请参阅《Hadoop-2.6.0NodeManager Restart Recover实现分析(二)》。


优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/245582

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。