Spark SQL五大关联策略
1、五种连接策略
选择连接策略的核心原则是尽量避免shuffle和sort的操作,因为这些操作性能开销很大,比较吃资源且耗时,所以首选的连接策略是不需要shuffle和sort的hash连接策略。
2、连接影响因素
2.1、连接类型是否为equi-join(等值连接)
等值连接是指一个连接条件中只包含“=”比较的连接,而非等值连接包含除“=”以外的任何比较,如“<、>、>=、<=”,由于非等值连接是对不确定值的范围比较,需要嵌套循环,所以只有CPJ和BMLJ两种连接策略支持非等值连接,对于等值连接,所有连接策略都支持。
2.2、连接策略提示(Join strategy hint)
Spark SQL为开发人员提供了通过连接提示对连接策略选择进行一些控制,共支持4种连接提示(Spark3.0.0版本)。
使用示例:SELECT
/*+ BROADCAST(table_B) */ *
FROM
table_A
INNER JOIN
table_B
ON
table_A.id = table_B.id
2.3、连接数据集的大小(Size of Join relations)
选择连接策略最重要的因素是连接数据集的大小,是否可以选择不需要shuffle和sort的基于hash的连接策略,就取决于连接中涉及的数据集的大小。
3、连接策略优先级
4、五种连接策略运行原理
4.1、Broadcast Hash Join(BHJ):广播散列连接
4.2、Shuffle Hash Join(SHJ):洗牌散列连接
4.3、Shuffle Sort Merge Join(SMJ):洗牌排列合并联系
4.4、Cartesian Product Join(CPJ):笛卡尔积连接
4.5、Broadcast Nested Loop Join(BNLJ):广播嵌套循环连接
作者:曲海龙
来源:京东云开发者社区 转载请注明来源

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
画眉(京东科技设计稿转代码平台)介绍
前言 随着金融App业务的不断发展,为了满足不同场景下的用户体验及丰富的业务诉求,业务产品层面最直接体现就是大量新功能的上线及老业务的升级,随之也给研发带来了巨大的压力,所以研发效率的提升就是当前亟需解决的问题,今天我们来看下“画眉”平台是如何帮助前端研发同学提效的。 前端开发流程概述 在讨论之前,我们先看下前端开发流程,下图是一个典型的场景: 通过上图我们可以发现,前端开发主要分为“UI还原”和“业务逻辑实现”两个阶段,其中UI还原阶段需要通过编写代码对设计稿进行1:1像素级还原,业务逻辑实现阶段主要包括数据绑定及交互效果实现。 “UI还原”阶段,研发通常需要借助设计平台的“标注”功能,对设计稿中每一个元素进测量,包括字体、间距、颜色、圆角等,一个普通的楼层通常包含几十个元素,此阶段包含了大量低效、重复、繁琐的工作; “业务逻辑实现”阶段一般是根据具体的产品需求,进行数据的加载、绑定和交互效果的开发,如鉴权、点击事件的添加、动效实现、埋点的上报等,不同的需求在此阶段的诉求差异较大,可复用性也比较低,通常需要针对每个需求进行定制开发。 我们可以发现“UI还原”阶段特点是“低效、重复、繁...
- 下一篇
ElasticSearch集群灾难:别放弃,也许能再抢救一下 | 京东云技术团队
1 前言 Elasticsearch作为一个分布式搜索引擎,自身是高可用的;但也架不住一些特殊情况的发生,如: 集群超过半数的master节点丢失,ES的节点无法形成一个集群,进而导致集群不可用; 索引shard的文件损坏,分片无法被正常恢复,进而导致索引无法正常提供服务 本地盘节点,多数据节点故障,旧节点无法再次加入集群,数据丢失 针对上述的情况,今天来聊一聊相关的解决方案。 2 基础知识 2.1 集群经典架构 在聊解决方案之前,首先来看一看ES集群层面的基本知识,es的集群组成通常如图1-1所示 图 1-1 es常用集群架构 如图1-1所示,为生产环境es集群的经典架构,主要由专有主节点、专有协调节点和数据节点组成: 专有主节点(Master-eligible node): 具有master角色的节点,这使其有资格被选为主节点,只存储集群元信息包含cluster、index、shard级别的元数据;该种角色节点被选举为master之后,将作为整个ES集群的大脑,负责维护集群层面的元信息,创建删除索引等工作。该种节点的个数必须为奇数,通常我们固定为3个,如果该类节点丢失半数,es集群...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- Linux系统CentOS6、CentOS7手动修改IP地址
- 2048小游戏-低调大师作品
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8