阿里妈妈MaxCompute架构演进 - AON(MPI)集群
阿里云数加MaxCompute (原名:ODPS;https://www.aliyun.com/product/odps)
1.1 MPI集群
1.1.1 背景
我们的集群规模不断地在加大, 与此同时我们却有着不同的运行体验,明显感觉到了各种任务的运行效率都在变低
1.1.2 问题
问题1:
说明
Aon:all-or-nothing
FIFO/Fair:调度系统支持的两种调度策略
问题2:
问题3:
以上三个问题其实主要原因还是aon类任务跑不起来,但同时却占着大量的资源给不了别的任务用;
1.1.3 项目目标
最终的想法其实也很简单,就是拆出独立AON(但大家习惯了歪叫成MPI)集群,建设规模要达到6000台+,让且仅让所有的生产和实验aon任务(主要是PS和Xlib-mpi)跑在这个上面,尽量减少Aon任务攒资源引起的资源浪费。


