Apache Kyuubi on Spark 在CDH上的深度实践
Kyuubi是网易数帆主导开源的大数据项目,于2021年6月全票通过进入世界顶级开源基金会 Apache Software Foundation 孵化器。Kyuubi 的一个典型使用场景,是替换 HiveServer2,轻松获得 10~100 倍性能提升。 CDH 最后一个免费版 6.3.2 发布一年有余,离线计算核心组件版本停在了 Hadoop 3.0.0,Hive 2.1.1,Spark 2.4.0。 随着 Spark 3.0 的重磅发布,大数据系统在性能方面又迎来了一次飞跃,本文将分享把 Spark 3 集成到 CDH 6.3.1(未开启 Kerberos) 的过程,并使用 Kyuubi 替换 HiveServer2,实现 OLAP、ETL 等场景下从 HiveQL 到 SparkSQL 的无缝迁移,享受 10x-100x 的性能红利。 CDH 缺陷修复 [ORC-125] 修复 Hive 不能读取高版本 ORC 写入的数据 当使用 Hive 读取由 Presto 或者 Spark 等写入的 ORC 文件时,会出现以下错误。 ORCsplitgenerationfailedw...
