大数据开发-Spark Join原理详解

2021-01-31 548

数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划阶段，Spark 的 Join Selection 类会根据 Join hints 策略、Join 表的大小、 Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最终的 Join 策略，最后 Spark 会利用选择好的 Join 策略执行最终的计算。当前 Spark 一共支持五种 Join 策略：

Broadcast hash join (BHJ)
Shuffle hash join（SHJ）
Shuffle sort merge join (SMJ)
Shuffle-and-replicate nested loop join，又称笛卡尔积（Cartesian product join)
Broadcast nested loop join (BNLJ)

其中 BHJ 和 SMJ 这两种 Join 策略是我们运行 Spark 作业最常见的。JoinSelection 会先根据 Join 的 Key 为等值 Join 来选择 Broadcast hash join、Shuffle hash join 以及 Shuffle sort merge join 中的一个；如果 Join 的 Key 为不等值 Join 或者没有指定 Join 条件，则会选择 Broadcast nested loop join 或 Shuffle-and-replicate nested loop join。不同的 Join 策略在执行上效率差别很大，了解每种 Join 策略的执行过程和适用条件是很有必要的。

1、Broadcast Hash Join

Broadcast Hash Join 的实现是将小表的数据广播到 Spark 所有的 Executor 端，这个广播过程和我们自己去广播数据没什么区别：

利用 collect 算子将小表的数据从 Executor 端拉到 Driver 端在 Driver 端调用 sparkContext.broadcast 广播到所有 Executor 端在 Executor 端使用广播的数据与大表进行 Join 操作（实际上是执行map操作）

这种 Join 策略避免了 Shuffle 操作。一般而言，Broadcast Hash Join 会比其他 Join 策略执行的要快。

使用这种 Join 策略必须满足以下条件：小表的数据必须很小，可以通过 spark.sql.autoBroadcastJoinThreshold 参数来配置，默认是 10MB 如果内存比较大，可以将阈值适当加大将 spark.sql.autoBroadcastJoinThreshold 参数设置为 -1，可以关闭这种连接方式只能用于等值 Join，不要求参与 Join 的 keys 可排序

2、Shuffle Hash Join

当表中的数据比较大，又不适合使用广播，这个时候就可以考虑使用 Shuffle Hash Join。 Shuffle Hash Join 同样是在大表和小表进行 Join 的时候选择的一种策略。它的计算思想是：把大表和小表按照相同的分区算法和分区数进行分区（根据参与 Join 的 keys 进行分区），这样就保证了 hash 值一样的数据都分发到同一个分区中，然后在同一个 Executor 中两张表 hash 值一样的分区就可以在本地进行 hash Join 了。在进行 Join 之前，还会对小表的分区构建 Hash Map。Shuffle hash join 利用了分治思想，把大问题拆解成小问题去解决。

要启用 Shuffle Hash Join 必须满足以下条件：仅支持等值 Join，不要求参与 Join 的 Keys 可排序 spark.sql.join.preferSortMergeJoin 参数必须设置为 false，参数是从 Spark 2.0.0 版本引入的，默认值为 true，也就是默认情况下选择 Sort Merge Join 小表的大小（plan.stats.sizeInBytes）必须小于 spark.sql.autoBroadcastJoinThreshold * spark.sql.shuffle.partitions（默认值200）而且小表大小（stats.sizeInBytes）的三倍必须小于等于大表的大小（stats.sizeInBytes），也就是 a.stats.sizeInBytes * 3 < = b.stats.sizeInBytes

3、Shuffle Sort Merge Join

前面两种 Join 策略对表的大小都有条件的，如果参与 Join 的表都很大，这时候就得考虑用 Shuffle Sort Merge Join 了。 Shuffle Sort Merge Join 的实现思想：将两张表按照 join key 进行shuffle，保证join key值相同的记录会被分在相应的分区对每个分区内的数据进行排序排序后再对相应的分区内的记录进行连接无论分区有多大，Sort Merge Join都不用把一侧的数据全部加载到内存中，而是即用即丢；因为两个序列都有序。从头遍历，碰到key相同的就输出，如果不同，左边小就继续取左边，反之取右边。从而大大提高了大数据量下sql join 的稳定性。

要启用 Shuffle Sort Merge Join 必须满足以下条件：

仅支持等值 Join，并且要求参与 Join 的 Keys 可排序

4、Cartesian product join

如果 Spark 中两张参与 Join 的表没指定连接条件，那么会产生 Cartesian product join，这个 Join 得到的结果其实

就是两张表行数的乘积。

5、Broadcast nested loop join

可以把 Broadcast nested loop join 的执行看做下面的计算：

for record_1 in relation_1:

for record_2 in relation_2:

join condition is executed

可以看出 Broadcast nested loop join 在某些情况会对某张表重复扫描多次，效率非常低下。从名字可以看出，这种

join 会根据相关条件对小表进行广播，以减少表的扫描次数。

Broadcast nested loop join 支持等值和不等值 Join，支持所有的 Join 类型。大数据开发，更多关注查看个人资料

微信关注我们

原文链接：https://my.oschina.net/u/3735317/blog/4939191

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

读 2020 年 Javascript 趋势报告展望 ES2020

2020年是一个不平凡的一年，但已经过去了，总结过去，展望未来！ Javascript 在过去一年里整体上在设法向前发展。得益于像可选链（Optional Chaining）和空值合并运算符（Nullish Coalescing）这样的新特性，语言本身在不断改进，而 TypeScript 的广泛使用将静态类型化普及到了一个新的高度。 2021年1月14日，Javascript 2020趋势调查报告发布了。调查结果来自137个国家的23,765名开发者，涵盖了开发者对Javascript特性、技术、工具等的使用和想法。下面来一起看看这份报告，并加深对Javascript的认识，在新的一年里提升一个档次。 2021年Javascript工具去年，最常用的技术没有发生太大的变化。TypeScript仍然是最常用的Javascript风格，React仍然是最常用的前端库，Express仍然是最常用的后端库。如果你想成为一名Web工程师，那么这些绝对是应该首先学习的技术。但是，谈到开发人员在2020年最喜欢的技术时，看到了许多新的竞选者，可能也代表着一种未来趋势。前端框架：Svelte S...

2021-01-31

633

最近正巧在进行 Newbe.Claptrap 新版本的开发，其中使用到了 Tye 来辅助 k8s 应用的开发。该系列我们就来简单了解一下其用法。 Newbe.Claptrap 是一个用于轻松应对并发问题的分布式开发框架。如果您是首次阅读本系列文章。建议可以先从本文末尾的入门文章开始了解。安装 Tye 首先，确保已经正确安装了 netcore 2.1 或以上版本的 dotnet SDK。 Tye 目前还处于开发阶段，因此，目前只能安装预览版本进行使用。通过以下链接可以搜索到当前最新的版本，并复制界面上的 CLI 安装。 https://www.nuget.org/packages/Microsoft.Tye/ dotnet tool install --global Microsoft.Tye --version 0.6.0-alpha.21070.5 安装完毕后，在控制台中运行 tye，便可以查看到如下结果： PS C:\tools\Cmder> tye tye: Developer tools and publishing for microservices. Us...

2021-01-31

598

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。