面向未来的开源 OLAP 技术架构探讨以及选型实践
摘要:本文将介绍开源大数据 OLAP 的演化过程和最佳实践。文章将围绕下面六点展开: 1.开源 OLAP 综述 2.OLAP 场景思考 3.开源数据湖/流式数仓解决方案 4.StarRocks 介绍 5.客户案例 6.未来规划 一、开源 OLAP 综述 基于历史发展和开源社区的火热,现在的OLAP技术可以用百花齐放四个字来形容。 如图中最左边这一部分,是现在比较流行或者已经是业界标准的 OLAP 数据仓库/LakeHouse,包括 StarRocks、Doris、ClickHouse。第二部分是 SQL on Hadoop,该技术于10年前开始,以 HDFS 平台或者 OSS 为存储底座,包括 Presto 以及分支出来的 Trino、Impala。第三部分是预处理/Cube/NoSQL,已经使用得越来越少,麒麟、Druid 社区以及背后的商业化公司活跃度不高,Hbase 目前主要用在 Serving 的场景,社区相对比较老,稳定性尚可,解决了一部分业务场景,应用规模不小,但热度在逐渐下降。第四列是离线部分,目前的事实标准是 Spark,比较老的技术栈则是 Hive。 最底下这一部分是...