分布式场景怎么Join | 京东云技术团队-低调大师

分布式场景怎么Join | 京东云技术团队

2024-02-20 427

背景

最近在阅读查询优化器的论文，发现System R中对于Join操作的定义一般分为了两种，即嵌套循环、排序-合并联接。在原文中，更倾向使用排序-合并联接逻辑。

考虑到我的领域是在处理分库分表或者其他的分区模式，这让我开始不由得联想我们怎么在分布式场景应用这个Join逻辑，对于两个不同库里面的不同表我们是没有办法直接进行Join操作的。查阅资料后发现原来早有定义，即分布式联接算法。

分布式联接算法

跨界点处理数据即分布式联接算法，常见的有四种模型：Shuffle Join（洗牌联接）、Broadcast Join（广播联接）、MapReduce Join（MapReduce联接）、Sort-Merge Join（排序-合并联接）。

接下来将进行逐一了解与分析，以便后续开发的应用。

Shuffle Join（洗牌联接）

先上原理解释：

Shuffle Join的核心思想是将来自不同节点的数据重新分发（洗牌），使得可以联接的数据行最终位于同一个节点上。通常，对于要联接的两个表，会对联接键应用相同的哈希函数，哈希函数的结果决定了数据行应该被发送到哪个节点。这样，所有具有相同哈希值的行都会被送到同一个节点，然后在该节点上执行联接操作。

可能解释完还是有点模糊，举个例子，有两张表，分别以id字段进行分库操作，且哈希算法相同（为了简单，这里只介绍分库场景，分库分表同理。算法有很多种，这里举例是hash算法），那么这两张表的分片或许可以在同一个物理库中，这样我们不需要做大表维度的处理，我们可以直接下推Join操作到对应的物理库操作即可。

在ShardingSphere中，这种场景类似于绑定表的定义，如果两张表的算法相同，可以直接配置绑定表的关系，进行相同算法的连接查询，避免复杂的笛卡尔积。

这样做的好处是可以尽量下推到数据库操作，在中间件层面我们可以做并行处理，适合大规模的数据操作。

但是，这很理想，有多少表会采用相同算法处理呢。

Broadcast Join（广播联接）

先上原理解释：

当一个表的大小相对较小时，可以将这个小表的全部数据广播到所有包含另一个表数据的节点上。每个节点上都有小表的完整副本，因此可以独立地与本地的大表数据进行联接操作，而不需要跨节点通信。

举个例子，有一张非常小的表A，还有一张按照ID分片的表B，我们可以在每一个物理库中复制一份表A，这样我们的Join操作就可以直接下推到每一个数据库操作了。

这种情况比Shuffle Join甚至还有性能高效，这种类似于ShardingSphere中的广播表的定义，其存在类似于字典表，在每一个数据库都同时存在一份，每次写入会同步到多个节点。

这种操作的好处显而易见，不仅支持并行操作而且性能极佳。

但是缺点也显而易见，如果小表不够小数据冗余不说，广播可能会消耗大量的网络带宽和资源。

MapReduce Join（MapReduce联接）

先上原理解释：

MapReduce是一种编程模型，用于处理和生成大数据集，其中的联接操作可以分为两个阶段：Map阶段和Reduce阶段。 Map阶段：每个节点读取其数据分片，并对需要联接的键值对应用一个映射函数，生成中间键值对。 Reduce阶段：中间键值对会根据键进行排序（在某些实现中排序发生在Shuffle阶段）和分组，然后发送到Reduce节点。在Reduce节点上，具有相同键的所有值都会聚集在一起，这时就可以执行联接操作。

MapReduce Join不直接应用于传统数据库逻辑，而是适用于Hadoop这样的分布式处理系统中。但是为了方便理解，还是用SQL语言来分析，例如一条SQL：

SELECT orders.order_id, orders.date, customers.name
FROM orders
JOIN customers ON orders.customer_id = customers.customer_id;

会被转换为两个SQL：

SELECT customer_id, order_id, date FROM orders;
SELECT customer_id, name FROM customers;

这个过程就是Map阶段，即读取orders和customers表的数据，并为每条记录输出键值对，键是customer_id，值是记录的其余部分。

下一个阶段可有可无，即Shuffle阶段。如果不在这里排序可能会在Map阶段执行SQL时候排序/分组或者在接下来的Reduce阶段进行额外排序/分组。在这个阶段主要将收集到的数据按照customer_id排序分组，以确保相同的customer_id的数据达到Reduce阶段。

Reduce阶段将每个对应的customer_id进行联接操作，输出并返回最后的结果。

这种操作普遍应用于两个算法完全不相同的表单，也是一种标准的处理模型，在这个过程中，我们以一张逻辑表的维度进行操作。这种算法可能会消耗大量内存，甚至导致内存溢出，并且在处理大数据量时会相当耗时，因此不适合需要低延迟的场景。

额外补充

内存溢出场景普遍在如下场景：

1. 大键值对数量：如果Map阶段产生了大量的键值对，这些数据需要在内存中进行缓存以进行排序和传输，这可能会消耗大量内存。

2. 数据倾斜：如果某个键非常常见，而其他键则不那么常见，那么处理这个键的Reducer可能会接收到大量的数据，导致内存不足。这种现象称为数据倾斜。

3. 大值列表：在Reduce阶段，如果某个键对应的值列表非常长，处理这些值可能会需要很多内存。

4. 不合理的并行度：如果Reduce任务的数量设置得不合适（太少或太多），可能会导致单个任务处理不均匀，从而导致内存问题。

我能想到的相应解决方案：

• 内存到磁盘的溢写：当Map任务的输出缓冲区满了，它会将数据溢写到磁盘。这有助于限制内存使用，但会增加I/O开销。

• 通过设置合适的Map和Reduce任务数量，可以更有效地分配资源，避免某些任务过载。具体操作可以将Map操作的分段比如1~100，100～200，Reduce阶段开设较少的并发处理。

• 优化数据分布，比如使用范围分区（range partitioning）或哈希分区（hash partitioning）来减少数据倾斜。

Sort-Merge Join（排序-合并联接）

先上原理解释：

在分布式环境中，Sort-Merge Join首先在每个节点上对数据进行局部排序，然后将排序后的数据合并起来，最后在合并的数据上执行联接操作。这通常涉及到多阶段处理，包括局部排序、数据洗牌（重新分发），以及最终的排序和合并。

举个理解，还是上面的SQL。

SELECT orders.order_id, orders.date, customers.name
FROM orders
JOIN customers ON orders.customer_id = customers.customer_id;

1. 对orders表按customer_id进行排序。

2. 对customers表按customer_id进行排序。

3. 同时遍历两个已排序的表，将具有相同customer_id的行配对。

这个就有点类似于原生的排序-合并联接了。也是数据库场景的标准处理办法。

对于已经排序的数据集或数据分布均匀的情况，这种方法非常有效。如果数据未预先排序，这种方法可能会非常慢，因为它要求数据在联接之前进行排序。

当然，这个算法也会造成内存溢出的场景，解决方案如下：

1. 当数据集太大而无法一次性加载到内存中时，可以使用外部排序算法。外部排序算法会将数据分割成多个批次，每个批次单独排序，然后将排序后的批次合并。这种方法通常涉及到磁盘I/O操作，因此会比内存中操作慢。

2. 对于合并步骤，可以使用流式处理技术，一次只处理数据的一小部分，并持续将结果输出到下一个处理步骤或存储系统。这样可以避免一次性加载大量数据到内存中。

3. 当内存不足以处理数据时，可以使用磁盘空间作为临时存储。数据库管理系统通常有机制来处理内存溢出，比如创建磁盘上的临时文件来存储过程中的数据。

4. 在分布式系统中，可以将数据分散到多个节点上进行处理，这样每个节点只需要处理数据的一部分，从而减少单个节点上的内存压力。

作者：京东科技张俊杰

来源：京东云开发者社区转载请注明来源

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/11044179

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

营销系统黑名单优化：位图的应用解析 | 京东云技术团队

背景营销系统中，客户投诉是业务发展的一大阻碍，一般会过滤掉黑名单高风险账号，并配合频控策略，来减少客诉，进而增加营销效率，减少营销成本，提升营销质量。营销系统一般是通过大数据分析建模，在CDP（客户数据平台，以客户为核心，围绕数据融合、人群圈选、用户洞察等提供产品能力）创建营销目标客户群体，黑名单同样也是通过CDP维护。下面的图片简单描述了过滤黑名单的处理流程，流程是相对简单的。但是，测试过程中却发现一个问题，对于一个近30万的营销群体，整个触达流程需要处理一个多小时，而其中过滤黑名单就占用了近半个小时的时间，业务有点难以接受这个性能。性能优化引入多线程优化其实很容易就能想到，对于调用RPC接口这种含有I/O操作的场景，可以引入多线程优化，将一个几十万的账号集合拆分为多个子任务提交给线程池处理，从而加快处理速度。从下图可以看出引入多线程后性能有很明显的改善，单线程处理25万、50万个账号的群体分别需要近半小时、近一小时，改为25个线程处理后可以分别控制在1分钟、2分钟左右。引入位图优化进一步了解CDP的底层原理后，会发现这个问题应该还有其他的解决方案，即通过位图优化。CD...

2024-02-19

398

原文作者：Prabhat Dixit of F5 原文链接：NGINX Agent 的可观测性和远程配置转载来源：NGINX 开源社区 NGINX 唯一中文官方社区，尽在nginx.org.cn 在 NGINX Sprint 2022 大会上，我们承诺实现 NGINX 开源版项目管理和社区互动方式的现代化。为此，我们宣布后续将推出 NGINX Agent — 该守护进程会作为伴侣软件来管理各个 NGINX 部署，提供可观测性和配置 API。今天，我们非常自豪能够在 Apache 2 许可下推出 NGINX Agent，成功兑现了这一承诺。 F5 NGINX 致力于构建一个涵盖应用部署和管理方方面面的生态系统。NGINX Agent 通过为开发和平台运维团队提供细粒度控制以及用于配置、监控和管理 NGINX 实例的附加功能，在这一愿景中扮演了重要角色。 NGINX Agent 有何作用？ NGINX Agent 是一个轻量级守护进程，可与您的 NGINX 开源版或 NGINX Plus 实例一同部署。值得注意的是，NGINX Agent 具备一些 NGINX 开源版没有的功能： NG...

2024-02-21

370

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。