Spark SQL五大关联策略

2024-01-22 327

1、五种连接策略

选择连接策略的核心原则是尽量避免shuffle和sort的操作，因为这些操作性能开销很大，比较吃资源且耗时，所以首选的连接策略是不需要shuffle和sort的hash连接策略。

◦ Broadcast Hash Join（BHJ）：广播散列连接

◦ Shuffle Hash Join（SHJ）：洗牌散列连接

◦ Shuffle Sort Merge Join（SMJ）：洗牌排列合并联系

◦ Cartesian Product Join（CPJ）：笛卡尔积连接

◦ Broadcast Nested Loop Join（BNLJ）：广播嵌套循环连接

2、连接影响因素

2.1、连接类型是否为equi-join(等值连接)

等值连接是指一个连接条件中只包含“=”比较的连接，而非等值连接包含除“=”以外的任何比较，如“<、>、>=、<=”，由于非等值连接是对不确定值的范围比较，需要嵌套循环，所以只有CPJ和BMLJ两种连接策略支持非等值连接，对于等值连接，所有连接策略都支持。

2.2、连接策略提示（Join strategy hint）

Spark SQL为开发人员提供了通过连接提示对连接策略选择进行一些控制，共支持4种连接提示（Spark3.0.0版本）。

▪ BROADCAST

▪ SHUFFLE_MERGE

▪ SHUFFLE_HASH

▪ SHUFFLE_REPLICATE_NL

使用示例：SELECT

/*+ BROADCAST（table_B） */ *

FROM

table_A

INNER JOIN

table_B

ON

table_A.id = table_B.id

2.3、连接数据集的大小（Size of Join relations）

选择连接策略最重要的因素是连接数据集的大小，是否可以选择不需要shuffle和sort的基于hash的连接策略，就取决于连接中涉及的数据集的大小。

3、连接策略优先级

4、五种连接策略运行原理

4.1、Broadcast Hash Join（BHJ）：广播散列连接

◦ 主要分为两个阶段：

1. 广播阶段：通过collect算子将小表数据拉到Driver端，再把整体的小表广播致每个Executor端一份。

2. 关联阶段：在每个Executor上进行hash join，为较小的表通过join key创建hashedRelation作为build table，循环大表stream table通过join key关联build table。

◦ 限制条件：

1. 被广播的小表大小必须小于参数：spark.sql.autoBroadcaseJoinThreshold，默认为10M。

2. 基表不能被广播，比如left join时，只能广播右表。

3. 数据集的总行数小于MAX_BROADCAST_TABLE_ROWS阈值，阈值被设置为3.41亿行。

4.2、Shuffle Hash Join（SHJ）：洗牌散列连接

◦ 主要分为两个阶段：

1. 洗牌阶段：通过对两张表分别按照join key分区洗牌，为了让相同join key的数据分配到同一Executor中。

2. 关联阶段：在每个Executor上进行hash join，为较小的表通过join key创建hashedRelation作为build table，循环大表stream table通过join key关联build table。

◦ 限制条件：

1. 小表大小必须小于参数：spark.sql.autoBroadcaseJoinThreshold（默认为10M） * shuffle分区数。

2. 基表不能被广播，比如left join时，只能广播右表。

3. 较小表至少比较大表小3倍以上，否则性能收益未必大于Shuffle Sort Merge Join。

4.3、Shuffle Sort Merge Join（SMJ）：洗牌排列合并联系

◦ 主要分为两个阶段：

1. 洗牌阶段：将两张大表分别按照join key分区洗牌，为了让相同join key的数据分配到同一分区中。

2. 排序阶段：对单个分区的两张表分别进行升序排序。

3. 关联阶段：两张有序表都可以作为stream table或build table，顺序迭代stream table行，在build table顺序逐行搜索，相同键关联，由于stream table或build table都是按连接键排序的，当连接过程转移到下一个stream table行时，在build table中不必从第一个行搜索，只需从与最后一个stream table匹配行继续搜索即可。

◦ 限制条件：

1. 连接键必须是可排序的。

4.4、Cartesian Product Join（CPJ）：笛卡尔积连接

◦ 主要分为两个阶段：

1. 分区阶段：将两张大表分别进行分片，再将两个父分片a，b进行笛卡尔积组装子分片，子分片数量：a*b。

2. 关联阶段：会对stream table和build table两个表使用内、外两个嵌套的for循环依次扫描，通过关联键进行关联。

◦ 限制条件：

1. left join广播右表，right join广播左表，inner join广播两张表。

4.5、Broadcast Nested Loop Join（BNLJ）：广播嵌套循环连接

◦ 主要分为两个阶段：

1. 广播阶段：通过collect算子将小表数据拉到Driver端，再把整体的小表广播致每个Executor端一份。

2. 关联阶段：会对stream table和build table两个表使用内、外两个嵌套的for循环依次扫描，通过关联键进行关联。

◦ 限制条件：

1. 仅支持内连接。

2. 开启参数：spark.sql.crossJoin.enabled=true。

作者：曲海龙

来源：京东云开发者社区转载请注明来源

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/10920360

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

画眉（京东科技设计稿转代码平台）介绍

前言随着金融App业务的不断发展，为了满足不同场景下的用户体验及丰富的业务诉求，业务产品层面最直接体现就是大量新功能的上线及老业务的升级，随之也给研发带来了巨大的压力，所以研发效率的提升就是当前亟需解决的问题，今天我们来看下“画眉”平台是如何帮助前端研发同学提效的。前端开发流程概述在讨论之前，我们先看下前端开发流程，下图是一个典型的场景：通过上图我们可以发现，前端开发主要分为“UI还原”和“业务逻辑实现”两个阶段，其中UI还原阶段需要通过编写代码对设计稿进行1:1像素级还原，业务逻辑实现阶段主要包括数据绑定及交互效果实现。 “UI还原”阶段，研发通常需要借助设计平台的“标注”功能，对设计稿中每一个元素进测量，包括字体、间距、颜色、圆角等，一个普通的楼层通常包含几十个元素，此阶段包含了大量低效、重复、繁琐的工作； “业务逻辑实现”阶段一般是根据具体的产品需求，进行数据的加载、绑定和交互效果的开发，如鉴权、点击事件的添加、动效实现、埋点的上报等，不同的需求在此阶段的诉求差异较大，可复用性也比较低，通常需要针对每个需求进行定制开发。我们可以发现“UI还原”阶段特点是“低效、重复、繁...

2024-01-22

345

1 前言 Elasticsearch作为一个分布式搜索引擎，自身是高可用的；但也架不住一些特殊情况的发生，如：集群超过半数的master节点丢失，ES的节点无法形成一个集群，进而导致集群不可用；索引shard的文件损坏，分片无法被正常恢复，进而导致索引无法正常提供服务本地盘节点，多数据节点故障，旧节点无法再次加入集群，数据丢失针对上述的情况，今天来聊一聊相关的解决方案。 2 基础知识 2.1 集群经典架构在聊解决方案之前，首先来看一看ES集群层面的基本知识，es的集群组成通常如图1-1所示图 1-1 es常用集群架构如图1-1所示，为生产环境es集群的经典架构，主要由专有主节点、专有协调节点和数据节点组成：专有主节点(Master-eligible node): 具有master角色的节点，这使其有资格被选为主节点，只存储集群元信息包含cluster、index、shard级别的元数据；该种角色节点被选举为master之后，将作为整个ES集群的大脑，负责维护集群层面的元信息，创建删除索引等工作。该种节点的个数必须为奇数，通常我们固定为3个，如果该类节点丢失半数，es集群...

2024-01-22

419

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

Spark SQL五大关联策略

1、五种连接策略

2、连接影响因素

2.1、连接类型是否为equi-join(等值连接)

2.2、连接策略提示（Join strategy hint）

2.3、连接数据集的大小（Size of Join relations）

3、连接策略优先级

4、五种连接策略运行原理

4.1、Broadcast Hash Join（BHJ）：广播散列连接

4.2、Shuffle Hash Join（SHJ）：洗牌散列连接

4.3、Shuffle Sort Merge Join（SMJ）：洗牌排列合并联系

4.4、Cartesian Product Join（CPJ）：笛卡尔积连接

4.5、Broadcast Nested Loop Join（BNLJ）：广播嵌套循环连接

画眉（京东科技设计稿转代码平台）介绍

ElasticSearch集群灾难：别放弃，也许能再抢救一下 | 京东云技术团队

相关文章

发表评论

资源下载

腾讯云软件源

Spring

Rocky Linux

WebStorm

欢迎您来访！