PieCloudDB Database 自研全新向量化执行器，带来性能的数量级提升-低调大师

PieCloudDB Database 自研全新向量化执行器，带来性能的数量级提升

2023-12-06 399

数据分析和应用的重要性日益增长，对于数据平台和数据计算系统来说，极致的性能是关键需求之一。为实现更高效的数据并行计算，一款优秀的执行器需要能够充分利用硬件资源，如 CPU 的并行计算能力和 SIMD 指令集。此外，优化数据的存储和读取方式、合理的任务调度和资源管理，以及持续优化和改进都是确保性能的关键因素。

PieCloudDB 为了助力企业建立以数据资产为核心的竞争壁垒，为客户提供卓越性能和高效的数据处理能力，颠覆原有执行器设计，自研了高效的全新向量化执行器。向量化计算技术的引入使得 PieCloudDB Database 能够充分利用现代处理器的并行计算能力，实现数据的快速并行处理。

1 什么是向量化计算？

向量化计算是一种计算机处理器或计算引擎的设计方法，利用 SIMD 指令集来操作向量数据。它可以在单个指令的控制下对一组数据进行并行计算，提高计算效率和性能。

1.1 CPU 体系结构

现代 CPU 中所支持的专用 SIMD 寄存器和硬件单元为向量化操作提供了强大的支持，让使用 SIMD 指令集进行并行计算更加高效，并且能够充分利用 CPU 的计算能力。接下来，我们来详细介绍一下 CPU 的体系结构帮助大家理解。

现在冯诺依曼计算机模型一般有 5 个核心组件：运算、存储、控制、输入以及输出。CPU 执行过程中一般会涉及取指令、解码、执行、回写这几个最基础的阶段，为了提高 CPU 的性能，现代 CPU 一般是引入了多级流水线、乱序执行等技术来提升性能。比如 5 级流水线，就是在同一个 CPU Cycle 内，可以处理 5 个不同的操作。

TMAM（自顶向下的微架构分析方法）对 CPU 性能优化的度量方式有两种，一种是 CPU 时钟周期，另外一种是 CPU Pipeline Slot，该方法假定每个 CPU 内核每个时钟周期 Pipeline 都是 4 个 Slot，即 CPU 的流水线宽是 4。

下图展示了各个时钟周期四个 Slot 的不同状态，注意只有 Clockticks 4 的 Cycle 利用率是 100%，其他的都是 Cycle Stall（停顿、气泡)。

Slot 的不同状态

对于一条 CPU 流水线来说，其在执行的时候有很多依赖，如下图所示：

CPU 流水线执行时的依赖

从上图中可以看到，CPU 流水线执行的效率，依赖于其所依赖的资源的效率，通常可以总结如下：

● Retiring: 表示运行有效的 uOps 的 Pipeline Slot，可以用于评估程序对 CPU 的相对比较真实的有效率。

● Bad Speculation: 表示由于错误的预测导致浪费的 Pipeline 资源If/switch/while/for 都可能会产生 bad speculation。

● Front-End-Bound: 取指令，解码，将指令发送给 back-end，每个周期最多分发 4 条 uops。

● Back-End-Bound: 接受 front-end 提交的 uops，指令重排，从内存中获取数据，执行，提交结果到内存中。

对一个 CPU Pipeline 执行的评价指标，可以从以下几个维度去衡量：

● Instruction Number: 指令数。当我们写一个 CPU 程序，终执行时都会被翻译成 CPU 指令，指令条数一般取决于程序复杂度。

● CPI（Cycle Per Instruction）: 执行一个指令需要的周期。

● Clock Cycle Time: 一个 CPU 周期需要的时间，是和 CPU 硬件特性强关联的。

很明显，代码层面能优化的，是第一个和第二个维度，常用的优化手段包括：

● Cache 友好，如根据 cacheline 调整数据结构大小，避免 cache 伪共享

● 分支预测优化，禁止使用 goto 语句

● 减少指令数据依赖

● 利用 CPU 硬件新特性，比如 SIMD

相对于标量计算，SIMD 指令集能够极大地减少执行同一运算所需的指令次数，从而显著提升性能。这种性能提升是非常巨大的。接下来，我们来了解一下，什么是 SIMD。

1.2 什么是 SIMD？

SIMD 是指单指令流多数据流（Single Instruction Multiple Data）的计算模式。它是一种并行计算的技术，通过在单个指令中同时对多个数据元素执行相同的操作，从而实现高效的数据并行处理。

在 SIMD 计算中，一条指令可以同时对一个向量或者多个数据元素进行操作。这些数据元素通常被组织成向量寄存器，可以包含多个数据值，并且这些值会被同时处理。这种方式能够有效地提高并行计算的性能，尤其适用于需要对大量数据进行相同操作的情况。

SIMD 具有并行计算、数据局部性、硬件加速、高性能应用和节省能源等优势，使得它成为处理大规模数据和高性能计算任务的有效工具。

如下图所示，标量运算一次只能对一对数据进行加法运算，而采用 SIMD 指令，一次可以对多对指令同时进行运算。很明显，SIMD 指令能够大幅度提升数据的处理速度，且在处理列存的数据，具有巨大的性能优势。

标量运算与 SIMD 运算对比

SIMD 广泛应用于各种领域，如图像和视频处理、信号处理、科学计算和数据库等。它可以加速诸如向量加法、乘法、平均值计算、峰值检测等常见操作，从而显著提高计算效率。

PieCloudDB 针对执行器进行了颠覆性改进和优化，以便更好地利用 SIMD 的能力来处理大规模数据计算任务，进行向量化计算。PieCloudDB 通过将数据组织成向量形式，并使用 SIMD 指令来执行相同操作，从而使执行器能够在单个指令周期内同时处理多个数据元素，提高计算效率。

此外，针对不同类型的数据计算问题，PieCloudDB 还设计了针对 SIMD 的优化策略。例如，在聚合、扫描、连接和过滤等常见的数据计算操作中，PieCloudDB 利用 SIMD 指令集的并行计算能力，对关键节点进行了优化，以提升整体性能。

2 PieCloudDB 的向量化实现

2.1 PieCloudDB 的存储模式

为了发挥 SIMD 的最大优势，并提高查询执行效率，对数据存储方式进行优化是关键。需要使数据存储更加友好于 SIMD 指令集的并行计算。

在关系型数据存储实现中，主要有两种数据存储的实现：

● 行存（Row-based）: 即数据按行进行组织和存储。在行存中，每一行的所有列值都连续地存储在一起。行存具有紧凑型数据结构、一次读取整行、事务修改的原子性、适合点查等优势，但行存也存在一些缺点，包括额外的 I/O 开销，数据的碎片化等。

● 列存（Column-based）: 即将每个列的数据连续存放在一起。相比传统的行存储方式，列存储具有以下优势：

➢ 数据压缩: 列存储可以应用更高效的压缩算法，减小数据存储的空间开销，并提高数据读取的带宽。

➢ 数据局部性: 由于列存储中每个列的数据是连续存放的，可以更好地利用处理器的数据局部性，减少指令和数据的 cache miss 率，提高访问效率。

➢ 数据 skip: 在列存储中，查询可以仅选择需要的列进行操作，减少不必要的数据传输和计算，提高查询效率。

但列存也存在一些缺点，例如选择（Selection）时按行读取，可能需要多次 I/O 操作。

下面以简单的数据表举例区别行存和列存。

示例数据表

使用行存的话，数据在内存和磁盘中的组织形式如下图所示：

行存数据组织形式

如果使用列存的话，数据在内存和磁盘中的组织形式如下图所示：

列存数据组织形式

PieCloudDB 目前的存储实现为行列混合存储。这种混合存储的方式结合了行存储和列存储的优势，以适应不同的查询模式和需求。方便用户在不同的业务场景下，选择不同的存储方式，达到效率的最大化。且列存将数据按列存储，使得连续的数据可以更好地利用 SIMD 指令的并行计算特性，完全发挥 SIMD 所带来的性能优势。为了最大程度地发挥数据处理的价值，特别是结合 JANM 存储系统已经支持的列存特性，PieCloudDB 执行器需要进行向量化计算优化。

2.2 PieCloudDB 执行器

PieCloudDB 云原生虚拟数仓采用全新的 eMPP（elastic MPP）架构，作为一款关系型数据库，其查询执行严格按照关系代数来实现，目前数据传递的方式是基于 Tuple 进行数据处理的，并采用火山模型作为具体的执行模型。这种上层算子递归调用下层算子获取并处理元组的方式存在一些缺陷，包括虚函数调用次数较多、指令或数据 Cache Miss 率较高等。同时，使用这种一次处理一个元组的方式无法充分利用 CPU 的 SIMD 指令进行优化，导致查询执行效率低下的问题。

而 SIMD 指令集能够同时处理多个数据元素，与列存技术相结合，能够实现更高效的数据处理。列存技术将数据按列存储，使得连续的数据可以更好地利用 SIMD 指令的并行计算特性。

为了打造向量化执行器，实现 SIMD 优化，需要考虑以下方面：

● 向量化操作: 重新设计和优化执行器，以支持 SIMD 指令集的向量化操作。通过重构代码逻辑，使用 SIMD 指令来处理整个数据列，而不是逐个处理每个元组。

● 数据布局优化: 根据 SIMD 指令集的特性，优化数据的存储方式和布局。通过进一步优化列存储，确保连续的数据可以充分利用 SIMD 指令的并行计算能力。

● 平台适配: 针对不同的硬件架构和 SIMD 指令集，进行适配和优化。考虑特定平台的限制和要求，确保 SIMD 优化能够在不同环境中有效实施。

通过这些优化措施，PieCloudDB 的执行器可以更好地利用 SIMD 指令集的并行计算能力，加速数据处理速度，提升系统性能和效率。这样可以在 OLAP 场景下实现更快速、高效的数据处理，充分发挥数据处理的最大价值。

2.3 PieCloudDB 向量化设计思路

向量化执行器的向量化处理的方式有很多种方法，比如可以对某些关键的处理流程进行 SIMD 代码优化，数据处理；使用对 SIMD 友好的 Hash Table 等。而 PieCloudDB 最终选择决定颠覆性重写一个全新的向量化执行器，主要基于以下方面的考虑：

● 足够优秀的现有执行器: PieCloudDB 现有的执行器在许多 OLAP 场景下已经表现出很高的性能优势，并完成了很多 HTAP 功能，在某些 OLTP 场景下也具有一定优势。

● 局部优化无法充分发挥 SIMD 的最大优势: 通过重写全新的向量化执行器，PieCloudDB 可以更好地利用 SIMD 指令集的并行计算能力，进一步提升数据处理性能。

● 进一步的计算形态建设: 在全新的执行器中，PieCloudDB 将更方便地实现湖仓一体和流批一体的计算形态建设，从而更好地适应不同的计算场景和各种数据处理需求。

● 拥抱大数据计算生态: PieCloudDB 作为拓数派大模型数据计算系统（πDataCS）的首款计算引擎，通过重写全新的向量化执行器，可以做到更好地与大数据计算生态进行对接和整合，为用户提供更广泛的数据计算解决方案。

PieCloudDB 团队相信重写全新的向量化执行器是必要且有益的，尽管这个过程可能会很艰难，但可以更好地赋能数据计算，实现极致的性能。经过反复的推敲与设计，PieCloudDB 向量化执行器的整体的架构图如下：

PieCloudDB 向量化执行器整体架构

在启用向量化执行器后，当 plan-rewriter 收到优化器下发的查询计划时，将进行向量化算子的替换，并将替换后的查询计划发送给向量化执行器。如果不进行向量化，则会使用旧的执行器进行查询。

显然，向量化执行器的核心是上图右侧的各个算子，因此我们需要对这些算子进行大量改造，以充分发挥 CPU 的极致能力。为了实现这一目标，我们主要从以下几个方面进行 SIMD 改造：

● 行存变为列存: 通过将数据从行存储结构转换为列存储结构，可以提高 SIMD 指令集在数据访问和处理中的效率。这样，连续的数据可以更好地利用 SIMD 的并行计算特性。

● 行处理变为列处理: 将原本基于行的处理方式转换为基于列的处理方式。这涉及到对大量算法进行调整和改进，使其适应基于列的 SIMD 并行计算模型。这样可以提高数据处理的效率。

● 代码级别的优化: 在向量化改造过程中，我们需要进行代码级别的优化。这包括分支消除、代码结构调整等，以减少分支跳转和提高代码的连续性，从而提高 SIMD 指令的利用率。

● 数据结构的调整: 为了更好地适应 SIMD 处理，需要对数据结构进行调整。例如，可以替换传统的哈希表为更加 SIMD 友好的数据结构，以提高查找和插入操作的效率。

通过以上的向量化改造方向，将使得 PieCloudDB 在数据处理方面能够更好地发挥 CPU 的潜力，从而实现更快速、高效的数据计算。

3 PieCloudDB 向量化执行器：实现性能的数量级提升

PieCloudDB 向量化执行器在业内常用的决策支持基准测试 TPC-H 中展现了令人瞩目的性能提升，相较于原先的执行器，在关键节点上取得了数量级的提升，包括 Agg、Scan、Join、Filter 和 Expr Compute 等。

● Agg: 使用向量化执行器能够更快地进行聚合操作，显著缩短查询的执行时间。对于需要对大量数据进行聚合操作的查询场景，这种提升尤为明显。

● Scan: 向量化执行器能够加速数据的扫描和读取过程。通过利用 SIMD 指令集进行向量化操作，可以同时处理多个数据元素，提高数据访问和处理的效率。

● Join: 向量化执行器能够更快速地执行表连接操作，处理多个表之间的关联。通过并行计算和向量化操作，可以加快 Join 操作的速度，提高查询的执行效率。

● Filter: 向量化执行器能够更高效地处理查询中的过滤条件。使用 SIMD 指令集进行向量化操作，可以同时对多个数据元素进行条件判断，减少循环迭代次数，提高过滤操作的速度。

● Expr Compute: 向量化执行器能够更快速地计算表达式和函数。通过利用 SIMD 指令集进行向量化计算，可以同时对多个数据元素进行表达式求值，加速计算过程。

这些关键算子数量级的提升使得 PieCloudDB 能够更快速地处理 TPC-H 基准测试以及日常 OLAP 场景中的复杂查询，提供更高效、更快速的决策支持能力。

后续我们将分别对这些算子的具体的优化过程进行剖析，欢迎大家关注！

4 道阻且长，行则将至

行百里者半九十，PieCloudDB 向量化执行器的打造之路还在继续。目前，PieCloudDB 已经实现了 SIMD 指令集的支持，充分利用了数据并行计算的优势。通过将多个数据元素打包成向量，并同时对其执行相同的操作，成功提高了计算效率和吞吐量。

然而，我们深知这只是开始，我们将致力于进一步优化和改进 PieCloudDB 向量化执行器，以满足不断增长的需求和不断变化的技术环境，探索更高级别的向量化操作和更强大的 SIMD 指令集支持，以进一步提升数据库的性能和效率。具体方向包括:

● 极致的性能优化

● 极致的资源管控

● 多模态的数据计算能力

PieCloudDB 向量化执行器的发展道路充满着挑战和机遇，我们坚信通过持续的创新和坚定的承诺，我们将继续前行，为用户带来更出色的性能和更广泛的应用场景。

微信关注我们

原文链接：https://my.oschina.net/u/5944765/blog/10319565

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

视频监控管理平台/GB28181视频系统EasyCVR查看服务信令交互步骤

国标GB视频平台/视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同，支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。在视频监控播放上，TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放，可同时播放多路视频流，也能支持视频定时轮播。为了便于用户二次开发、调用与集成，我们也提供了丰富的API接口供用户使用。国标GB28181协议视频平台EasyCVR可以提供视频直播、视频流分发、云端录像、设备录像查看、告警录像等功能，在使用这些功能的过程中，都会消耗相应的带宽/流量。为给用户使用带来更大便利，今天小编就带大家学习一下如何查看EasyCVR服务信令交互。由于智能视频监控平台EasyCVR提供了对应的接口，可以查看EasyCVR内核的推拉流状态：而在Linux系统中，还可通过命令iftop查看服务器的流量使用情况，以及哪些ip与服务器有信令交互信息，如下图： GB28181视频监控国标平台/视频监控EasyCVR能在复杂的网络环境中，将分散的各类视频资源进行统一汇聚、整合、集中管理。视频监控汇聚平台EasyCV...

2023-12-05

427

数据作为新时代重要的生产要素之一，数据资产化的相关工作正在提速。自今年10月1日起，中国资产评估协会制定的《数据资产评估指导意见》正式施行。同时，《企业数据资源相关会计处理暂行规定》近期转为正式稿，也将于明年1月1日起施行。《暂行规定》规定：企业使用的数据资源，符合《企业会计准则第6号——无形资产》（财会〔2006〕3号）规定的定义和确认条件的，应当确认为无形资产；企业日常活动中持有、最终目的用于出售的数据资源，符合《企业会计准则第1号——存货》（财会〔2006〕3号）规定的定义和确认条件的，应当确认为存货；企业出售未确认为资产的数据资源，应当按照收入准则等规定确认相关收入。什么是数据资产入表？在对数据资产进行价值评估和入表处理之前，我们首先需要明确什么是数据资产。数据资产是指企业或组织所拥有的各种数据资源，包括但不限于客户信息、销售数据、财务数据、生产数据等。数据资产入表是指将数据资产纳入到企业或组织的资产管理体系中，并进行有效管理和利用的过程。《暂行规定》首次从政策角度将数据资产明确确认入表，使得原先只能费用化处理的数据资源开发成本在满足一定条件后得以确认为资产。数据资产...

2023-12-06

430

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。