深度解读 Cascades 查询优化器

2023-12-11 396

数据库中查询优化器是数据库的核心组件，其决定着 SQL 查询的性能。Cascades 优化器是 Goetz 在 volcano optimizer generator 的基础上优化之后诞生的一个搜索框架。

本期技术贴将带大家了解 Cascades 查询优化器。首先介绍 SQL 查询优化器，接着分析查询优化基本原理，最后对 Cascades 查询优化器进行重点介绍。

一、SQL 查询优化器

用户与数据库交互时只需要输入声明式 SQL 语句，数据库优化器则负责将用户输入的 SQL 语句进行各种规则优化，生成最优的执行计划，并交由执行器执行。优化器对于 SQL 查询具有十分重要的意义。

如图 1 所示，SQL 语句经过语法和词法解析生成抽象语法树(AST)，经过**基于规则的查询优化（Rule-Based Optimizer）和基于代价的查询优化（Cost-Based Optimizer）**生成可执行计划。

图 1

基于规则的优化算法: 基于规则的优化方法的要点在于结构匹配和替换。应用规则的算法一般需要先在关系代数结构上匹配一部分局部的结构，再根据结构的特点进行变换乃至替换操作。
基于成本的优化算法: 现阶段主流的方法都是基于成本（Cost）估算的方法。给定某一关系代数代表的执行方案，对这一方案的执行成本进行估算，最终选择估算成本最低的方案。尽管被称为基于成本的方法，这类算法仍然往往要结合规则进行方案的探索。基于成本的方法其实是通过不断的应用规则进行变换得到新的执行方案，然后对比方案的成本优劣进行最终选择。

二、查询优化的基本原理

优化器一般由三个组件组成：统计信息收集、开销模型、计划列举。

如图 2 所示，开销模型使用收集到的统计信息以及构造的不同开销公式，估计某个特定查询计划的成本，帮助优化器从众多备选方案中找到开销最低的计划。

图 2

SQL 语句查询优化基于关系代数这一模型：

SQL 查询可以转化为关系代数；
关系代数可以进行局部的等价变换，变换前后返回的结果不变但是执行成本不同；
通过寻找执行成本最低的关系代数表示，我们就可以将一个 SQL 查询优化成更为高效的方案。

寻找执行成本最低的关系代数表示，可以分为基于动态规划的自底向上和基于 Cascades/Volcano 的自顶向下两个流派。

自底向上搜索：从叶子节点开始计算最低成本，并利用已经计算好的子树成本计算出母树的成本，就可以得到最优方案；
自顶向下搜索：先从关系算子树的顶层开始，以深度优先的方式来向下遍历，遍历过程中进行剪枝。

自底向上的优化器从零开始构建最优计划，这类方法通常采用动态规划策略进行优化，采用这类方法的优化器包括 IBMSystem R。自顶向下的优化策略的优化器包括基于 Volcano 和 Cascades 框架的优化器。

三、Cascades 查询优化器

Cascades 查询优化器采用自顶向下的搜索策略，并在搜索过程中利用 Memo 结构保存搜索的状态。

Cascades 关键组件构成：

Expression：Expression 表示一个逻辑算子或物理算子。如 Scan、Join 算子；
Group：表示等价 Expression 的集合，即同一个 Group 中的 Expression 在逻辑上等价。Expression 的每个子节点都是以一个 Group 表示的。一个逻辑算子可能对应多个物理算子，例如一个逻辑算子 Join(a,b)，它对应的物理算子包括{HJ(a, b), HJ(b, a), MJ(a, b), MJ(b, a), NLJ(a, b), NLJ(b, a)}。我们将这些逻辑上等价的物理算子称为一个 Group（组）。注：HJ 表示 HashJoin 算子，MJ 表示 MergeJoin 算子，NLJ 表示 NestLoopJoin 算子；
Memo：由于 Cascades 框架采用自顶向下的方式进行枚举，因此，枚举过程中可能产生大量的重复计划。为了防止出现重复枚举，Cascades 框架采用 Memo 数据结构。Memo 采用一个类似树状（实际是一个图状）的数据结构，它的每个节点对应一个组，每个组的成员通过链表组织起来；
Transformation Rule：是作用于 Expression 和 Group 上的等价变化规则，用来扩大优化器搜索空间。

Cascades 首先将整个 Operator Tree 按节点拷贝到一个 Memo 的数据结构中，Memo 由一系列的 Group 构成，每个算子放在一个 Group，对于有子节点的算子来说，将原本对算子的直接引用，变成对 Group 的引用。

图 3

如图 3 所示，生成该语法树的 Memo 初始结构。Memo 结构中一个圆角框代表一个算子，圆角框右下角是对其 Children’s Groups 的引用，左下角是唯一标识符。生成初始的 Memo 结构后，可以采用 transform rule 进行逻辑等价转换，规则如下：

对于一个逻辑算子，其所有基于关系代数的等价表达式保存在同一个 Group 内，例如 join(A,B) -> join(B,A)；
在一个 Group 内，对于一个逻辑算子，会生成一个或多个物理算子，例如 join -> hash join,merge join，NestLoop join；
一个 Group 内，一个算子，其输入（也可以理解为subplan）可以来自多个 Group 的表达式。

在图 4 中，描述了一个部分扩展的 Memo 结构，与图 1 中的初始 Memo 相比，在同一个 Group 内，增加了等价的逻辑算子，以及对应的物理算子。

图 4

在探索的过程中，优化器就会通过开销模型 Coster 借助统计信息来计算子步骤的开销，遍历完每个 Memo Group之后，归总得到每个完整计划的总开销，最终选择 Memo 中开销最低的计划。

图 5

图 5 中有三个 Group，分别对应三个逻辑算子：Join(a, b), GET(a) 和 GET(b)。Group 1（Group 2）中包含了所有对应 GET(a) （GET(b)）的物理算子，我们可以估算每个物理算子的代价，选取其中最优的算子保留下来。

为了防止枚举过程出现重复枚举某个表达式，Memo 结构体中还包含一个哈希表（exprHT），它以表达式为哈希表的键，用来快速查找某个表达式是否已经存在于 Memo 结构体中。

Cascades 采用自顶向下的方式来进行优化，以计划树的根节点为输入，递归地优化每个节点或表达式组。如图所示，整个优化过程从 Group 0 开始，实际上要先递归地完成两个子节点（Group 1 和 Group 2）的优化。

因此，实际的优化完成次序是 Group 1 -> Group2 -> Group 0。在优化每个 Group 时，依次优化每个组员；在优化每个组员时，依次递归地优化每个子节点。依次估算当前组里每个表达式 e 的代价 cost(e)，选择最低得代价结果保存在 bestHT 中。优化结束时，查询 Join(a,b)对应的 Memo 结构体，获取最低的执行计划。

微信关注我们

原文链接：https://my.oschina.net/u/5148943/blog/10320570

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

.NET8极致性能优化Reflection

前言反射一直是性能的瓶颈，所以无论哪个.NET版本反射的优化必然少不了。主要是集中在两个方面优化，分配和缓存。.NET8自然也不例外。本篇看下。原文:.NET8极致性能优化Reflection 概述比如针对GetCustomAttributes 通过反射获取属性的优化，以下例子 // dotnet run -c Release -f net7.0 --filter "*" --runtimes net7.0 net8.0public class Tests{ public object[] GetCustomAttributes() => typeof(C).GetCustomAttributes(typeof(MyAttribute), inherit: true); [My(Value1 = 1, Value2 = 2)] class C { } [AttributeUsage(AttributeTargets.All)] public class MyAttribute : Attribute { public int Value1 { get; set; } p...

2023-12-11

425

12月6日，由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)共同组织的2023大数据“星河(Galaxy)”案例评选结果正式公示，“基于KaiwuDB的台区云储能示范项目”历经多环节严苛评审，从累计706份申报项目中脱颖而出，获评数据库方向“标杆案例”。在国家大数据战略指导下，信通院“星河（Galaxy）”案例评选以推进大数据技术产品及相关产业繁荣为目的，迄今已成功举办7届，累计2000余家企业参与申报，在业内具有较强的权威性和影响力。数据库专项于2022年首次启动，基于数据库产品及生态工具在金融、电信、能源、政务、医疗等行业生产业务系统内的创新实践进行评选，集中表彰和推广数据库在产业数字化实践中的先进经验。在“基于KaiwuDB的台区云储能示范项目”中，以“Powered by KaiwuDB”为核心理念研发的“一体化分布式储能系统”高度集成PCS、BMS等元件，配备基于KaiwuDB分布式多模数据库的浪潮边缘控制设备，实现每秒百万级时序数据记录写入，实时计算与分析能力可达到毫秒级响应，降低储能场景的决策时延，提升储能柜对电网的综合调节能力...

2023-12-12

386

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。