Libcomm通信库：GaussDB(DWS) 为解决建联过多的小妙招-低调大师

Libcomm通信库：GaussDB(DWS) 为解决建联过多的小妙招

2024-03-12 436

本文分享自华为云社区《GaussDB(DWS) 集群通信系列三：Libcomm通信库》，作者：半岛里有个小铁盒。

1.前言

适用版本：【8.1.0(及以上)】

在大规模集群、高并发业务下，如果有1000DN集群，每个stream线程需要建立1000个连接。如果1000 stream并发，DN总共需要建立100万个连接，会消耗大量的连接、内存、fd资源。为了解决这个问题，我们引入了Libcomm通信库，在一个物理长连接上模拟n个逻辑连接，使得所有并发的数据跑在一个物理连接上，极大的解决了物理连接数过多和建连耗时的问题。

2.基本原理

GaussDB(DWS)为解决建联过多的问题，实现了Libcomm通信库（即逻辑连接通信库），在一个物理长连接上模拟n个逻辑连接，使得所有并发的数据跑在一个物理连接上。比如DN1需要给DN2发送数据，并发数1000，在原有逻辑下，DN1需要建立与DN2连接的1000个线程与之进行交互，消耗了大量的连接、内存、fd资源，而改造Libcomm通信库之后，DN1与DN2仅需建立一个真正的物理连接，在这个物理连接上可以建立很多个逻辑链接，这样可以使得1000个并发就可以用同一个物理连接进行数据交互。

那么GaussDB(DWS)的逻辑连接是怎么实现的呢？首先我们从连接数据流入手，挖掘其实现逻辑。

物理连接支持TCP、RDMA等协议连接，以TCP为例，其物理连接数据流可以分为两部分，即数据包头+数据。数据包头为固定长度，其中包含逻辑连接号和数据块长度，用来区别逻辑连接，并接收每个连接各自对应的数据。

了解了物理连接发送的数据流，那具体的发送逻辑是什么样的呢？其具体的流程如下图所示：

上图中producer线程为发送线程，consumer线程为接收线程，发送端逻辑如下：

send queue：producer发送线程将要发送的数据先push到一个无锁队列中，push完成之后，producer线程就可以继续做自己的事情了
send proxy thread：通信存在一个发送端代理线程，会统一将无锁队列中的数据，通过物理连接发送到对端

接收端逻辑如下：

receive proxy thread：通信存在一个接收端代理线程，会统一将无锁队列中的数据，通过物理连接接收回来，解析数据包头之后，放到对应线程的buffer池中
buffer1：consumer接收线程会从自己对应的buffer池中取出数据，执行自己的数据加工逻辑。

上述这个方法可能会存在一些问题，并发比较高时producer线程会一直往队列里push，如果此时对端cunsumer1线程正在处理别的数据导致接收buffer1满了的话，producer2和producer3无法往网络上填充更多的数据，发送阶段就会阻塞，而此时可能consumer2和consumer3正在空闲状态，等待这个接收数据，但是因为发送端阻塞而接收不到，这种场景会严重影响性能。这个模型我们称之为push模型。因此我们需要通过另外一种流控机制来解决这个问题，我们称之为pull模型。

push模型：发送端不感知接收端状态。一直往无锁队列中push，直到push阻塞。
poll模型：发送端感知接收端状态。发送端一开始不会发送数据，当接收端里的buffer池内存满足一定条件时，通知对应的发送端，并告知可以接收的数据量，发送端可以按照对端可以接收的数据量进行发送。

通过poll模型的实现，在本线程阻塞的情况下，其他的线程不会阻塞，以确保物理连接中数据永远不会阻塞，保证连接的通畅性。

3.相关视图

3.1.pgxc_comm_delay

该视图展示所有DN的通信库时延状态。

该视图中的字段包括节点名称、连接对端节点的节点名称、连接对端IP的对端地址、当前物理连接使用的stream逻辑连接数量、当前物理连接一分钟内探测到的最小时延、当前物理连接一分钟内探测道德平均值和当前物理连接一分钟内探测到的最大时延。

3.2.pgxc_comm_recv_stream

该视图展示所有DN上的通信库接收流状态。其中字段包括节点名称、使用此通信流的线程ID、连接对端节点名称、连接对端节点ID、通信对端DN在本DN内的标识编号、通信流在物理连接中的标识编号、通信流所使用的tpc通信socket、通信流当前的状态、通信流对应的debug_query_id编号、通信流所执行查询的plan_node_id编号、通信流所执行查询send端的smpid编号、通信流所执行查询recv端的smpid编号、通信流接收的数据总量、通信流当前生命周期使用时长、通信流的平均接收速率、通信流当前的通信配额值、通信流当前缓存的数据大小。

3.3.pgxc_comm_send_stream

该视图展示所有DN上的通信库发送流状态。其中字段包括节点名称、使用此通信流的线程ID、连接对端节点名称、连接对端节点ID、通信对端DN在本DN内的标识编号、通信流在物理连接中的标识编号、通信流所使用的tpc通信socket、通信流当前的状态、通信流对应的debug_query_id编号、通信流所执行查询的plan_node_id编号、通信流所执行查询send端的smpid编号、通信流所执行查询recv端的smpid编号、通信流接收的数据总量、通信流当前生命周期使用时长、通信流的平均接收速率、通信流当前的通信配额值和通信流等待quota值产生的额外时间开销。

3.4.pgxc_comm_status

该视图展示所有DN的通信库状态。其中字段包括节点名称、节点通信库接收速率，单位为byte/s、节点通信库发送速率，单位为byte/s、节点通信库接收速率，单位为Kbyte/s、节点通信库发送速率，单位为Kbyte/s、cmailbox的buffer大小、libcomm进程通信内存的大小、libpq进程通信内存的大小、postmaster线程实时使用率、gs_sender_flow_controller线程实时使用率、gs_receiver_flow_controller线程实时使用率、多个gs_receivers_loop线程中最高的实时使用率、当前使用的逻辑连接总数。

4.相关GUC参数

4.1 comm_max_datanode

表示TCP代理通信库支持的最大DN数，最小值为1，最大值为8192。当DN数小于256时，默认值为256；否则，为大于等于DN数的2的N次方。在集群扩容、缩容场景下，要注意此参数的变更。

4.2 comm_max_stream

表示TCP代理通信库支持的最大并发stream数量，默认值为1024，最大为60000，此参数要保证大于并发数

每并发平均stream算子数

（smp的平方），否则会报错Cannot get stream index, maybe comm_max_stream is not enough。此外，在设置此参数时需要考虑占用内存问题，其大小为256byte * comm_max_stream * comm_max_datanode，可见在内存、comm_max_datanode和comm_max_stream三者之间需要一个动态的规划。

针对comm_max_stream不足问题，可以考虑三种解决方案：

新版本直接使用pgxc_comm_status视图查看DN的stream使用情况：select node_name, stream from pgxc_comm_status order by 2 desc;

在CN上查询当前任意两个DN之间的stream情况：select node_name, remote_name, count(*) as stream from pgxc_comm_send_stream group by 1, 2 order by 3 desc limit 30;

若当前业务恢复，可使用脚本对stream进行监控；

然而，还有情况是个别的SQL语句严重消耗stream，此时可以使用实时topsql或历史topsql找到对应的语句，修改以解决问题。

4.3 comm_max_receiver

表示TCP代理通信库接收端接收线程的数量，最大值为50，默认值为4。在大集群、大并发场景下，适当的调大该参数有利于提升查询的性能；但如果通信层可用内存不足，线程间有竞争会对接收性能有负面影响。

注：SMP是指对称多处理技术，数据库领域的SMP并行技术一般指利用多线程技术实现查询的并行执行，以充分利用CPU资源，从而提升查询性能。SMP特性通过算子并行来提升性能，同时会占用更多的系统资源，在使用时，需要根据使用场景与限制进行合理的配置。在GaussDB中，SMP功能由query_dop参数决定，默认值为1。

4.4 comm_cn_dn_logic_conn

对于256节点的集群来说，并发场景导致CN和DN之间存在大量连接，每个连接占用一个端口，则CN的端口号很容易受限。为解决此问题，设计了CN多流，即CN与DN之间采用逻辑连接。comm_cn_dn_logic_conn参数默认值是off，在集群规模或并发达到一定程度时，需要将其开启为on，避免CN与DN之间由于端口号受限而无法建连。

4.5 comm_quota_size

TCP代理通信库采用pull模式进行流量控制，避免消息堵塞。两个DN分别有一个buffer，当一条通道发送端数据量过大时，很容易造成buffer填满，阻塞了其他通道的发送。此时，对于每条通道设置一个quota，接收端根据buffer剩余空间的大小发送给发送端一个合理quota值，发送端根据quota大小发送数据。

comm_quota_size表示每个通道单次不间断发送数据量配额，默认值1MB。当通道发送数据量达到配额时，发送端等待接收端重新发送配额，进而继续发送数据，从而实现流控功能。其取值为0时，表示不使用quota，在一些大流量等场景中，查询之间可能会有影响。在1GE网卡环境中，受网卡能力限制，应该调小该参数，推荐20KB~40KB。如果环境内存充足，参数comm_usable_memory设置较大，可以适当调大，从而提升性能。

4.6 comm_usable_memory

commusable_memory表示的是TCP代理通信库可使用的最大内存大小，默认值4000MB。此参数需要根据环境内存及部署方式具体配置，保证了系统不会因为通信层接收缓存造成进程内存膨胀。在单台机器上，通信占用内存最坏情况=部署节点个数* comm_usable_memory。考虑环境内存情况，此参数配置过小，会影响通信性能，过大则可能造成系统内存不足等问题。与comm_quota_size结合，进行合理的配置至关重要。

5.总结

本文详细介绍了Libcomm通信库及其原理，让我们更好的理解GaussDB(DWS)集群通信中的具体逻辑，对于GaussDB(DWS)通信运维也具备一定的参考意义。

6.参考连接

GaussDB重要通信参数汇总：https://bbs.huaweicloud.com/blogs/239863
【带你走进DWS大集群内幕】大集群通信：作业hang、残留问题定位：https://bbs.huaweicloud.com/blogs/407719
GaussDB(DWS) 集群通信系列三：集群通信常用视图：https://bbs.huaweicloud.com/blogs/209112
GaussDB（DWS）通信库libpq重构介绍（一）：https://bbs.huaweicloud.com/blogs/289336
GaussDB（DWS）通信库libpq重构介绍（二）：https://bbs.huaweicloud.com/blogs/297955

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/11046904

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

聊聊CWE 4.14 与 ISA/IEC 62443中，如何保障工业软件的安全性

本文分享自华为云社区《CWE 4.14 与 ISA/IEC 62443》，作者：Uncle_Tom。 1. 序言随着 5G 的应用，物联的网发展，越来越多的自动化控制系统、云服务在工业控制系统被广泛使用。为了实现生产自动化，很多企业都引入了由 PLC（可编程逻辑控制器）控制的自动化生产设备和相关的自动化生产系统。用来连接各个自动化生产设备和生产系统的生产网络一般被称为 OT（Operation Technology）网络。而这些网络互联的普及与融合造成了 OT 环境系统安全受到威胁。再加上近来不断升温的政治冲突、恐怖主义与经济犯罪，这些都是引发面向产业关键基础设施进行攻击的动机。 2. CWE 4.14 在 28 年才能一遇的龙年 2 月 29 日，CWE 发布了新的一个版本 4.14。在这个版本发布的公告里，用了“其中包含了许多激动人心的更新（includes a number of exciting updates）”。这些更新主要包括：有 4 个与硬件微架构相关的弱点; 1 个新视图：工业自动化和控制系统的CWE-1424:ISA/IEC 62443 要求解决的弱点视图; 对...

2024-03-12

436

导读：Rust 是一门注重性能和安全的系统编程语言，通过其独特的所有权系统、借用系统和类型系统，成功地解决了传统系统编程中的许多难题。其开发者友好的语法、丰富的标准库和强大的社区支持，使得 Rust 成为当今编程领域中备受关注的语言之一。 01 引言 Rust 已经不算是一门年轻的语言了，其诞生时间跟 Go 语言差不多。2006 年 Rust 作为 Graydon Hoare 的个人项目出现，2007 年 Google 开始设计 Go。但很明显，Go 的发展要好得多。Rust 在 2015 年才发布了 1.0 版本，而 Go 在 2016 年已经成为了 TIOBE 的年度语言。相较而言 Rust 的发展和前景似乎不怎么好，但其实这与 Rust 语言的定位有非常大的关系。Rust 最初是作为一种在系统编程领域里替代 C/C++ 而出现的语言，其发展自然要缓慢许多。因为在系统编程领域，每走一步都要求非常扎实。我对 Rust 印象比较深刻的有两件事情：首先是看到一篇文章称其学习曲线非常陡峭，当时就比较好奇一门语言可以难到什么程度。其次则是因为 Linus Torvalds 决定在 Linu...

2024-03-12

452

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。