阿里妈妈MaxCompute架构演进 - AON(MPI)集群
阿里云数加MaxCompute (原名:ODPS;https://www.aliyun.com/product/odps) 1.1 MPI集群 1.1.1 背景 我们的集群规模不断地在加大, 与此同时我们却有着不同的运行体验,明显感觉到了各种任务的运行效率都在变低 1.1.2 问题 问题1: 说明 Aon:all-or-nothing FIFO/Fair:调度系统支持的两种调度策略 问题2: 问题3: 以上三个问题其实主要原因还是aon类任务跑不起来,但同时却占着大量的资源给不了别的任务用; 1.1.3 项目目标 最终的想法其实也很简单,就是拆出独立AON(但大家习惯了歪叫成MPI)集群,建设规模要达到6000台+,让且仅让所有的生产和实验aon任务(主要是PS和Xlib-mpi)跑在这个上面,尽量减少Aon任务攒资源引起的资源浪费。
