Jindo SQL 性能优化之 RuntimeFilter Plus
作者:陆路,花名世仪,阿里巴巴计算平台事业部EMR团队高级开发工程师,大数据领域技术爱好者,对Spark、Hive等有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。
背景介绍
TPC-DS 测试集采用星型和雪花型等多维数据模型,包含 7 张事实表和 17 张维度表,以 store channel 为例,事实表和维度表的关联关系如下所示:
分析 TPC-DS 全部 99 个查询语句不难发现,绝大部分语句的过滤条件都不是直接作用于事实表,而是通过过滤维度表并将结果集与事实表 join 来间接完成。因此,优化器很难直接利用事实表索引来减少数据扫描量。如何利用好查询执行时的维度表过滤信息,并将这些信息下推至存储层来完成事实表的过滤,对于性能提升至关重要。
在 2019 年的打榜测试中,我们基于 Spark SQL Cat
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
DataWorks应用场景有哪些?
云栖号快速入门:【点击查看更多云产品快速入门】不知道怎么入门?这里分分钟解决新手入门等基础问题,可快速完成产品配置操作! 本文将为您介绍DataWorks的应用场景示例。 日志大数据分析 提高工作效率。将日志数据同步至MaxCompute,通过SQL语句进行分析与处理,提高工作效率。 提高存储利用率。降低整体存储和计算的费用的同时,并提高性能和稳定性。 降低大数据使用门槛。MaxCompute提供多种开源软件的插件,可以轻松完成数据上云。 推荐搭配使用: DataWorks + 数据集成 + AnalyticDB for MySQL + Quick BI + MaxCompute客户案例请参见墨迹天气。 精细化运营 提升业务洞察能力。通过MaxCompute计算能力,可以实现针对百万用户的精细化运营。 业务数据化。可以提升对业务数据的分析能力并进行有效监控,更好地业务赋能。 快速响应业务需求。可以根据新业务的数据分析需求,快速灵活地进行响应与满足。 推荐搭配使用: DataWorks + 数据集成 + Quick BI + MaxCompute客户案例请参见美甲帮。 数据安全管理 敏感...
- 下一篇
架构设计 | 分布式系统调度,Zookeeper集群化管理
一、框架简介 1、基础简介 Zookeeper基于观察者模式设计的组件,主要应用于分布式系统架构中的,统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等场景。 Linux下Zookeeper单节点安装 SpringBoot整合Zookeeper中间件 2、集群选举 Zookeeper集群基于半数机制,集群中半数以上机器存活,集群处于可用状态。所以建议Zookeeper集群安装为奇数台服务器。在集群的配置文件中并没有指定Master和Slave。在Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。 基本描述 假设有三台服务器组成的Zookeeper集群,每个节点的myid编号依次1-3,依次启动服务器,会发现server2被选择为Leader节点。 server1启动,执行一次选举。服务器1投自己一票。此时服务器1票数一票,未达到半数以上(2票),选举无法完成,服务器1状态保持为LOOKING; server2启动,再执行一次选举。服务器1和2分别投自己一票,并交换选票信息,因为服务器2的...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS7,8上快速安装Gitea,搭建Git服务器