Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native
作者: 张凯@阿里云、陳韋廷@Intel、周渊@Intel 简介 Apache Celeborn(Incubating) 是阿里云捐赠给 Apache 的通用 Remote Shuffle Service,旨在提升大数据计算引擎的性能/稳定性/弹性,目前已广泛应用于生产场景。Gluten 是 Intel 开源的引擎加速项目,旨在通过把 Spark Java Engine 替换为 Native Engine(Velox, ClickHouse, Arrow 等)来加速 Spark 引擎。过去一段时间,Gluten 社区和 Celeborn 社区相互合作,成功把 Celeborn 集成进 Gluten,本文将对此加以介绍。 Gluten: 给 Spark 换上 Native 引擎 Gluten 项目旨在解决基于 Apache Spark 的数据负载场景中的 CPU 计算瓶颈。随着 IO 技术的提升,特别是SSD和万兆网卡的普及,CPU 计算瓶颈逐渐成为限制性能的主要因素。然而,基于 JVM 进行 CPU 指令优化相对困难,因为与其他本地语言(如C++)相比,JVM 提供的优化功能较少。 为...