从 SQL 查询优化技巧去看 h2 数据库查询原理 | 京东物流技术团队
本文目标是:了解查询的核心原理,对比 SQL 查询优化技巧在 h2database 中的落地实现。
前提:为了贴近实际应用,本文 Code Insight 基于 BTree 存储引擎。
数据查询核心原理
数据库实现查询的原理:遍历表/索引,判断是否满足where
筛选条件,添加到结果集。简单通用。
对于选择表还是索引、如何遍历关联表、优先遍历哪个表、怎样提升遍历的效率,这个就是数据库查询复杂的地方。
/** * 查询命令实现查询的主要过程 * @see org.h2.command.dml.Select#queryFlat */ private void queryFlat(int columnCount, ResultTarget result, long limitRows) { // 遍历单表 or 关联表。topTableFilter 可以简单理解为游标 cursor。 while (topTableFilter.next()) { // 判断是否符合 where 筛选条件 if (condition == null || Boolean.TRUE.equals(condition.getBooleanValue(session))) { Value[] row = new Value[columnCount]; // 填充select 需要的 columns ① for (int i = 0; i < columnCount; i++) { Expression expr = expressions.get(i); row[i] = expr.getValue(session); } // 保存符合条件的数据,这个对应 resultSet result.addRow(row); // 没有 sort 语句的情况下,达到 limitRows, 终止 table scan ② if ((sort == null || sortUsingIndex) && limitRows > 0 && result.getRowCount() >= limitRows) { break; } } } }
Join 查询核心原理
基于状态机模式,实现多表嵌套循环遍历。
使用的 Join 算法是: Nested Loop Join。
状态变迁:BEFORE_FIRST --> FOUND --> AFTER_LAST
/** * Check if there are more rows to read. * 遍历的数据 row 记录在当前 session 中,随时随地可以获取 * * @return true if there are * @see org.h2.table.TableFilter#next */ public boolean next() { // 遍历结束,没有符合的条件的 row if (state == AFTER_LAST) { return false; } else if (state == BEFORE_FIRST) { // cursor 遍历初始化, 如果基于索引的游标,则可以提前锁定数据范围。③ cursor.find(session, indexConditions); if (!cursor.isAlwaysFalse()) { // 如果包含 join 表,重置关联表的状态机。 if (join != null) { join.reset(); } } } else { // state == FOUND || NULL_ROW 的情况 // 嵌套遍历 join 关联表。这是个递归调用关联表的过程。 if (join != null && join.next()) { return true; } } // 表/索引数据扫描,匹配filterCondition,直到找到符合的 row while (true) { if (cursor.isAlwaysFalse()) { state = AFTER_LAST; } else { if (cursor.next()) { currentSearchRow = cursor.getSearchRow(); current = null; state = FOUND; } else { state = AFTER_LAST; } } // where 条件判断 if (!isOk(filterCondition)) { continue; } // 嵌套遍历 join 关联表。主表的每一行 row,需要遍历关联子表一次。④ if (join != null) { join.reset(); if (!join.next()) { continue; } } // check if it's ok if (state == NULL_ROW || joinConditionOk) { return true; } } state = AFTER_LAST; return false; }
获取查询数据
从遍历的 row 中,获取 select 语句需要的 column 数据。
对应的 Cursor 实现是:org.h2.index.PageBtreeCursor
/** * 根据 columnId 获取对应的值 * @see org.h2.table.TableFilter#getValue */ public Value getValue(Column column) { if (current == null) { // 优先从当前遍历的 row 获取数据。 // 如果是索引中的 row,不会包含所有的行,会有取不到的情况 Value v = currentSearchRow.getValue(columnId); if (v != null) { return v; } // 如果没有,再尝试从原始表 row 存储中获取数据。⑤ // 对应的实现: currentRow = index.getRow(session, currentSearchRow.getKey()); current = cursor.get(); if (current == null) { return ValueNull.INSTANCE; } } return current.getValue(columnId); }
常用的 SQL 查询优化技巧
分别对应上述源代码注释的数字角标。
①避免使用 SELECT *:只选择需要的列
如果使用 select *, 即使使用了索引查询。也需要取原数据行的所有数据(⑤)。会进行数据的二次读取,也就是回表查询。影响了性能。
②避免使用 ORDER BY, 尽量使用LIMIT
使用 LIMIT:如果只需要部分结果,可以使用 LIMIT 子句限制返回的行数,避免检索整个结果集。
如上源代码,如果没有 Order By,有limit 限制情况下,可以中途结束表遍历。
如果有 Order By 的情况下,肯定要执行完成整个扫描遍历的过程,最终在 result 结果集中再一次进行排序计算。
③使用索引:确保表中的列上有适当的索引,以加快查询速度。
如果使用索引,在初始化扫描阶段,会给 cursor 一定的范围,避免全表扫描。极大的缩小的查询范围。
④减少连接的表的数量:如果可能,尽量减少查询中的表的数量。
无需多言,嵌套递归查询,理论上是所有表的笛卡尔积。
⑤使用覆盖索引:一个查询的所有列都包含在索引中。
这样查询可以只扫描索引而不需要回表。例如,如果你的查询是 SELECT id, name FROM users WHERE age = 30,那么在 age, id, name 上创建一个复合索引可以避免回表。
其他
Nested Loop Join
// 用伪代码表示,可以更清晰理解上述 join 遍历的过程 for (r in R) { for (s in S) { if (r satisfy condition s) { output <r, s>; } } }
MySQL 中的Nested Loop Join
MySQL官方文档中提到,MySQL只支持Nested Loop Join这一种join algorithm.
MySQL resolves all joins using a nested-loop join method.
This means that MySQL reads a row from the first table, and then finds a matching row in the second table, the third table, and so on.
作者:京东物流 杨攀
来源:京东云开发者社区 自猿其说Tech 转载请注明来源

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
你还在为SFTP连接超时而困惑么? | 京东云技术团队
1. 前言 在最近的项目联调过程中,发现在连接上游侧SFTP时总是需要等待大约10s+的时间才会出现密码输入界面,这种长时间的等待直接导致的调用文件接口时连接sftp超时问题。于是决定自己针对该问题进行一下排查,查询了相关资料,并逐个试验了一下网上提供的解决方案,然后在文章中详细记录问题的排查及分析过程,并将收集到的一些常见的SFTP的超时原因及解决方案进行了整理如下。 2. 问题排查过程 首先使用ssh -v命令(调试模式)进行远程登录调试: ssh -v -oPort=端口号 root@ip地址 在调试模式观察调试信息,确定主要的耗时卡点所在位置 根据耗时卡点信息确认问题所属服务端还是客户端; ◦ 假如调试信息卡在debug1: SSH2_MSG_SERVICE_ACCEPT received位置,则表示主要的耗时卡点在服务端,需要修改服务端的配置文件(); ◦ 假如调试信息卡在debug1: Next authentication method: gssapi-with-mic 位置,则表示主要的耗时卡点在客户端,需要修改服务端的配置文件(); ◦ 假如两个阶段停...
- 下一篇
WebSocket魔法师:打造实时应用的无限可能 | 京东物流技术团队
1、背景 在开发一些前端页面的时候,总是能接收到这样的需求:如何保持页面并实现自动更新数据呢?以往的常规做法,是前端使用定时轮询后端接口,获取响应后重新渲染前端页面,这种做法虽然能达到类似的效果,但是依然有很多缺点,缺点就不在这里说了,感兴趣的小伙伴可以自行查阅一下。现在让我们回忆一下,我们有没有想过,是否有一种技术,服务器可以主动将数据推送给客户端进行渲染,而不再是客户端向服务器发出请求等待返回结果呢?接下来,让我们一起了解weboskcet。 2、什么是websocket websocket是HTML5规范的一个部分,它借鉴了socket的思想,实现了浏览器与服务器全双工通信,达到了即时通信的效果。websocket协议基于TCP协议实现,包含初始的握手过程,以及后续的多次数据帧双向传输过程,避免服务器频繁打开多个HTTP连接,从而能更好的节省服务器资源和带宽,提高工作效率与资源利用率 3、工作原理 websocket的通信规范,首先浏览器通过HTTP协议发出websocket的连线请求,服务器进行响应,这个过程称为握手,握手完成后,客户端和服务器之间建立一个类似TCP的连接,使用...
相关文章
文章评论
共有0条评论来说两句吧...