EB 级系统空中换引擎:阿里调度执行框架如何全面升级?
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 阿里妹导读:作为阿里巴巴核心大数据底座——伏羲调度和分布式执行系统,支撑着阿里集团内部以及阿里云上大数据平台绝大部分的大数据计算需求,在其上运行的 MaxCompute(ODPS) 以及 PAI 等多种计算引擎,每天为用户进行海量的数据运算。为了支撑计算平台下个 10 年的发展,伏羲团队启动了 DAG 2.0 项目,从代码和功能方面实现完全的升级换代,支持更多 DAG 执行过程中的动态性及计算模式。本文将分享 DAG 2.0 核心架构及整体设计,以及与上层各个计算引擎的对接,较长,同学们可收藏后再看。 前言 在"阿里体量"的大数据生态中,伏羲系统管理着弹内外多个物理集群,超十万台物理机, 以及数百万的 CPU/GPU cores。每天运行在伏羲分布式平台上的作业数已经超过千万, 是业界少有的,单天处理 EB 级别数据分布式平台。其中单个作业规模已经高达数十万计算节点,管理着数百亿的边连接。在过去的十年中,阿里集团以及阿里云上这样的作业数目和规模,锤炼了伏羲分布式平台;与此同时,今天平台上...
