YARN-ResourceManager重启
标签(空格分隔): 大数据 YARN
[toc]
概览
ResourceManager是资源管理和应用调度的中央枢纽。因此它是YARN集群的故障单点。
本文给出一个ResourceManager重启的概览,以及在重启时保持运行的增强特征同时在down机时对终端用户不可见。
ResourceManager重启特性分为两个阶段:
ResourceManager重启阶段1:增强RM使其将应用和尝试的状态以及其他私密信息持久化保存到一个可插拔的状态存储里。RM在重启后从状态存储里重新加载这些信息然后踢掉之前运行的应用。不要求用户重新提交应用。
ResourceManager重启阶段2:在重启时通过从NodeManager和ApplicationMasters的容器请求中读回容器状态来重建ResourceManager的正在运行的状态。与阶段1的关键不同