【MySQL】之join算法详解-低调大师

【MySQL】之join算法详解

2020-08-24 671

在阿里巴巴的java开发手册有这么一条强制规定：超过三个表禁止join，需要join的字段，数据类型保持绝对一致，多表关联查询时，要保证被关联的字段需要有索引。

为什么尽量避免使用join？如果使用join，我们应该怎么用呢？接下来我们就一起聊一聊关于join的几种算法。

Simple Nested-Loop Join

Simple Nested-Loop Join算法是指读取驱动表t1中的每行数据，将每行数据传递到被驱动表t2上，取出被驱动表t2中满足条件的行,和t1组成结果集。

在这个算法中，需要对t1进行全表扫描，假设t1表1000行数据，那么需要对t2表进行1000次全表扫描，假设t2表也是1000行数据，那么就需要扫描1000 X 1000=1000000行。

示例图如下：当t1表5行数据，t2表5行数据时，需要扫描25行数据。

Index Nested-Loop Join

index nested-loop join算法的优化思路是通过驱动表的匹配条件，直接与被驱动表的索引进行匹配，减少了被驱动表的扫描次数。

该算法同样要对驱动表t1进行全表扫描，但是我们在拿着t1表的数据去被驱动表t2进行匹配时可以利用t2表的索引，如果t1表中1000行数据，t2表中1000行数据，那么一共就需要扫描1000+1000=2000行数据。这个过程就跟我们写程序时的嵌套查询类似，并且可以用上被驱动表的索引，所以称之为“Index Nested-Loop Join”，简称 NLJ。

示例如下：当t1表有5行数据，t2表有5行数据时，一共需要扫描5+5=10行数据。

Block Nested-Loop Join

Block Nested-Loop join，基于块的嵌套循环，简称BNL算法，其优化思路主要是减少被驱动表的循坏次数，它会将驱动表的数据缓存起来，把参与查询的列缓存到join buffer里，然后拿join buffer里的数据批量与内层表的数据在join buffer中进行匹配，满足join条件的，作为结果集的一部分返回。

可以看到该算法对两个表都进行了全表扫描，因此扫描的行数是两个表的行数之和。这种场景下，虽然在扫描行数上和NLJ算法一样，但是由于BNL算法是在内存中进行判断，速度上会快很多。

join buffer的大小是由参数join_buffer_size设定，默认256k。如果一次放不下驱动表的所有数据，会分段放，这种情况下会导致被驱动表扫描多次。如果被驱动表是冷数据表，并且多次扫描读取被驱动表间隔超过1S的话，就会将他放入LRU链表的young区域，导致业务数据无法进入热数据区，减少了bufferpool的命中率，这又是另外一个课题了，暂不过多展开。我们可以通过调大join_buffer_size来提高缓存的数据量，减少对被驱动表的扫描次数。

启用BNL算法需要在optimizer_switch参数中设置block_nested_loop=on。

Batched Key Access

BNL算法提升了join的性能，但是它在通过辅助索引连接后需要回表，就会消耗大量的随机I/O，我们知道随机IO对MySQL的影响是非常大的。因此MySQL5.6引入了Batched Key Access（BKA，批量键访问联接）算法。

再说BKA算法时不得不提的就是MySQL的Multi-Range Read 优化，MRR的目的主要是减少磁盘的随机访问。我们都知道，Innodb索引采用的是B+tree的数据结构，数据保存在主键索引中，并且是按照主键递增的顺序插入的，但是二级索引的排列顺序和主键的排列顺序一般是不一样的，它保存的主键值也并非按照主键顺序排列，在回表时就会出现随机访问主键索引的情况。所以如果可以按照主键递增顺序查询的话，对磁盘的读比较接近顺序读，这样就能够提升读性能。

MRR优化的思路就是在进行范围查询时，在得到主键值之后，先按照主键的顺序进行排序，然后拿着排好序的主键ID再去主键索引进行查询，这样就能体现出顺序性的优势了。因为是多值查询，所以一般用于range、ref类型的查询。

再说会BKA算法，当被驱动表上有索引可以利用时，那么就在行提交给被 join 的表之前，先对两个表的对应列的索引字段进行join，得到主键值后，按照主键排好序后，利用 MRR 技术，批量访问表取数据，减少了随机 IO。但是如果被 join 的表没用索引的话，那就只能使用BNL算法了。

具体算法如下图：

开启BKA和MRR的方式：

   
   
   
    
    
    set optimizer_switch='mrr=on,mrr_cost_based=off,batched_key_access=on';

MySQL在8.0版本已经实现了hash join，这里暂不做介绍。

小结

如何优化join的速度呢，这里给出如下几点建议：

尽量避免使用join。
用小表作为驱动表，减少外层循环的次数。
多表关联查询时，要保证被关联的字段要有索引。
适当增大join_buffer_size的值，缓存的数据越多，就越能减少被驱动表扫描的次数。
减少不必要的字段查询。
需要join的字段，数据类型保持绝对一致。

本文分享自微信公众号 - MySQL数据库技术栈（Mysqltechnology）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/3678773/blog/4528631

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

10分钟搞定 Java 并发队列好吗？好的

| 好看请赞，养成习惯你有一个思想，我有一个思想，我们交换后，一个人就有两个思想 If you can NOT explain it simply, you do NOT understand it well enough 现陆续将Demo代码和技术文章整理在一起 Github实践精选，方便大家阅读查看，本文同样收录在此，觉得不错，还请Star🌟 前言如果按照用途与特性进行粗略的划分，JUC 包中包含的工具大体可以分为 6 类：执行者与线程池并发队列同步工具并发集合锁原子变量在【并发系列】中，主要讲解了执行者与线程池，同步工具，锁，在分析源码时，或多或少的提及到了「队列」，队列在 JUC 中也是多种多样存在，所以本文就以「远看」视角，帮助大家快速了解与区分这些看似「杂乱」的队列并发队列 Java 并发队列按照实现方式来进行划分可以分为 2 种：阻塞队列非阻塞队列如果你已经看完并发系列锁的实现，你已经能够知道他们实现的区别：前者就是基于锁实现的，后者则是基于 CAS 非阻塞算法实现的常见的队列有下面这几种：瞬间懵逼？看到这个没有人性的图想直接走人...

2020-08-24

635

⬆⬆⬆ 点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！徐梦炜，北京大学信息科学技术学院2015级博士生，师从黄罡教授与刘譞哲副教授，将于2020年加入北京邮电大学担任特聘副研究员，博士生导师。主要研究方向为移动与边缘计算，已在相关领域的国际顶级会议如MobiCom，MobiSys，UbiComp，WWW等发表多篇论文。一、What：如何理解移动与边缘设备上AI system？ AI system是沟通上层算法应用以及底层硬件的桥梁，由于新的算法、模型、AI应用的出现，底层就会有新的硬件产出，比如AI chip、GPU，这需要有更好的系统去沟通上层与底层，支撑上层的应用，并优化应用的性能。讲者在WWW2019上发表的文章中指出，越来越多的深度学习应用运行在手机等终端设备上，这说明，随着5G以及边缘技术的发展，终端设备上的计算性能越来越强，越来越多的计算任务，比如ML和DL的推断甚至训练，更倾向于在终端设备上完成。二、WHY：为什么在Camera 上做视频分析？研究动机在于，把更多的计算从集中式的云服务器上off load到摄像头本身。现代化社会在城市、...

2020-08-24

682

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。