【大数据】SparkSQL连接查询中的谓词下推处理(二)-低调大师

【大数据】SparkSQL连接查询中的谓词下推处理(二)

2019-05-28 788

本文首发于 vivo互联网技术微信公众号 https://mp.weixin.qq.com/s/II48YxGfoursKVvdAXYbVg
作者：李勇

目录：
1.左表 join 后条件下推
2.左表join中条件不下推
3.右表join中条件下推
4.右表join中条件不下推
5.总结

在《SparkSql连接查询中的谓词下推处理（一）》中，我们介绍了一些基本的概念，并对内连接查询时的一些基本下推规则进行了分析。

本篇文章要介绍的是--外连接查询中的谓词下推规则，这相比内连接中的规则要复杂一些，不过使用简单的表格来进行分析也是可以分析清楚的。先上表：

我们以左外连接查询为例，先总结规矩如下:

接下来对这个表格中的规则进行详细的分析。

1.左表join后条件下推

查询语句如下：

前文有提到，对于join后条件，如果放在join操作后执行，是可以作为正确结果进行比对的。那么先对两表进行左连接，结果如下：

然后使用LT.id>1这个join后条件进行过滤，结果如下：

来分析一下LT.id>1下推到左表进行数据过滤的结果,经过LT.id>1过滤后，左表变为：

此时再和右表进行左连接，左表id为2的行，在右表中能找到id为2的行，则连接结果如下：

可见，两种处理方法结果一致。条件下推过滤了左表整整50%的数据（相当牛，虽然只过滤了一条）。究其原因，是因为在SparkSQL中，把以上的查询解析成了如下的子查询：

这是一个非相关子查询，即完全可以先完成子查询，再完成父查询，子查询在查询过程中和外部查询没有关联关系。

2.左表join中条件不下推

查询语句如下：

来看看不下推的情况下计算出的正确结果，join过程如下：

第一步：左表id为1的行在右表中能找到相等的id，但是左表的id为1，是不满足第二个join条件（LT.id>1）的，所以左表这一条相当于没有和右表join上，所以左表的值value保留，而右表的value为null（你没满足join中条件没join上还把你的值保留，给我搞个空值？没办法，就是这么任性）。

第二步：左表id为2的行在右表中能找到，而且左表id为2的行的id大于1，两个join条件都满足，所以算是和右表join上了，所以左表和右表的value都保留。最终的查询结果如下：

那么如果把"LT.id>1"这个条件下推到做表，会得到什么结果呢？

首先左表经过"LT.id>1"过滤后，如下：

此时再和右表连接，左表id为2的行在右表中能找到，且满足"LT.id = RT.id AND LT.id > 1"这个join中条件，所以两表的value都被保留。左表中已经没有数据了，查询结束，查询结果如下：

这个查询结果和不下推的正确结果不一致，是个错误的结果，所以左表join中条件是不能下推进行数据过滤的。分析原因：主要是因为join中条件和join后条件对结果的处理方式不同，前者在不满足join条件时会保留一部分结果，而后者在不满足条件时任何东西都不保留。

3.右表join中条件下推

查询语句如下：

现在把RT.id>1这个右表join后条件下推，来过滤右表，过滤后如下：

然后左表再和右表进行左连接，流程如下：

第一步：左表id为1的行在右表中没有，此时左表值保留，右表为null；

第二步：左表id位2的行在右表中有，并且RT.id大于1，两个join条件都满足，则左表和右表的值都保留。查询结果如下：

那么如果不下推（为了得到正确结果），来看看结果，流程如下：

第一步：左表id为1的行在右表中有，但是不满足第二个join条件，所以这行算是没join上，所以左表数据保留，右表为null；

第二步：左表id为2的行在右表中有，也满足第二个join条件，所以左右表的数据都保留。

可见，右表join中条件下推不下推，结果一样，所以，干吗不下推？可以过滤掉一半的数据呢。SparkSQL中的等价处理语句是：

可以看出，也是解析成了一个非相关子查询来处理的。

4.右表join中条件不下推

这个应该是最违反常规理解的查询了，查询语句如下：

首先来看，join后条件不下推的情况，流程如下：

第一步：左表id为1的行在右表中可以找到，但是此时仅仅满足join条件，在使用where条件判断这条连接后数据时，发现右表的id不满足RT.id>1的条件，所以这条join结果不保留（注意：这里是不保留，全都不保留，左表右表都不保留，要跟上边的没join上而右表的值保留为null的情况区别开，这也是关键所在）；

第二步：左表id为2的行和右表id为2的行join上了，同时也满足RT.id>1的where条件。

这是一条符合语义的正确的查询结果。

好了，接下来看看右表join后条件下推的情况：

第一步：使用RT.id>1过滤右表，过滤后右表只剩一行id为2的行；

第二步：左表id为1的行在过滤后的右表中没有，此时左表值保留，右表值为null；

第三步：左表id为2的行在右表中有，此时左表值保留，右表值也保留。

结果如下：

很明显这其实是一个错误的结果。

总结

至此，左连接查询的四条规则分析完了。可以看出，在SparkSQL中对于外连接查询时的过滤条件，并不能在所有情况下都用来进行数据源的过滤，如果使用得当会极大的提升查询性能，如果使用不当，则会产生错误的查询结果，而这种错误结果又不易发觉，所以使用时要格外小心。

更多内容敬请关注 vivo 互联网技术 微信公众号

注：转载文章请先与微信号：labs2020 联系。

微信关注我们

原文链接：https://my.oschina.net/vivotech/blog/3054915

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

持续集成与持续交付之间的联系和区别

作者 | Rebecca Pruess 编译 | 毛智伟随着DevOps理念的普及与扩散，大家经常会看到持续集成（Continuous Integration）与持续交付（Continuous Delivery）这样的字眼，而怎样使用与选择这些方法成了大多数IT团队必须面对的问题。在讨论更加深入地讨论问题之前，首先需要清楚这两者之间的主要区别是什么，以及用什么方法可以更好改善工作流程，从而在更短的时间内为目标用户提供更高质量的软件。持续集成（CI）和持续交付（CD）都体现了如今快节奏市场中的文化和发展原则，旨在缩短开发周期、提高软件交付效率以及实现全流程的自动化。同时，两者都有着共同的目标：让软件开发更少地依赖于手动执行的任务，在此基础上使得软件的发布更加频繁、更加安全可靠。由于有着相同的目标，因此持续集成和持续交付并非相互排斥的。只是它们的应用范围有所不同。那下面就来看下CI与CD之间的联系与区别。什么是持续集成如上所述，CI和CD是相互关联的。持续集成是指软件个人研发的部分向软件整体部分交付，频繁进行集成以便更快地发现其中的错误。由此可见，CI专注于定期地让开发人员构建小...

2019-05-28

745

写在前面：设计模式源于生活，而又高于生活！什么是适配器模式定义：将一个系统的接口转换成另外一种形式，从而使原来不能直接调用的接口变得可以调用。适配器模式角色划分适配器模式涉及3个角色： 1.源（Adaptee）：需要被适配的对象或类型，相当于插头。 2.适配器（Adapter）：连接目标和源的中间对象，相当于插头转换器。 3.目标（Target）：期待得到的目标，相当于插座。适配器模式包括3种形式：类适配器模式、对象适配器模式、接口适配器模式（或又称作缺省适配器模式）。适配器模式应用场景 1、新老版本接口的兼容 2、Mybatis多种日志框架的整合适配器创建的方式 1.对象适配器(组合模式) 2.类适配器(继承模式) 适配器快速入门例子比如早期的时候V1版本订单接口的入参为Map类型，随着业务的更新和迭代在V2版本的时候该订单接口的入参需要支持List的类型？请问不改变的该接口代码的情况下，如何支持List类型。 1.源（Adaptee）：需要被适配的对象或类型，相当于插头。 public void froOrderMap(Map map) { f...

2019-05-28

726

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。