解析阿里云分布式调度系统伏羲
云计算并不是无中生有的概念,它是将普通的单台PC的计算能力通过分布式调度的软件连接起来。其最核心的问题是如何把100台、1千台、1万台机器高效的组织起来,灵活的进行任务调度和管理,从而使得可以像使用台式机一样使用云计算。在云计算中,最核心的模块是分布式调度,它好比于云计算的中央处理器。目前,业界已存在多种分布式调度实现方案,如伏羲、Hadoop MR、YARN、Mesos等系统。
阿里云伏羲
伏羲系统是在前人的基础上进行了一系列的改造,首先与YARN和Mesos系统类似,将资源的调度和任务调度分离,形成两层架构,使其具备以下优势:
(1)规模:两层架构易于横向扩展,资源管理和调度模块仅负责资源的整体分配,不负责具体任务调度,可以轻松扩展集群节点规模;
(2)容错:当某个任务运行失败不会影响其他任务的执行;同时资源调度失败也不影响任务调度;