ClickHouse最大QPS到底咋估算?
ClickHouse是用于分析的OLAP数据库,因此典型的使用场景是处理相对较少的请求 — 从每小时几个到每秒几十甚至几百个不等 — 但会影响到大量数据(几GB/数百万行)。
但是在其他情况下,它的表现如何?让我们尝试用大量小请求来测试ClickHouse如何处理。这将帮助我们更好地了解可能的使用场景范围和限制。
本文分为两个部分:
- 连接基准测试和测试设置
- 涉及实际数据的最大QPS的场景
环境
对于初始测试,我选择了一台旧工作站:
- 4核 Intel(R) Core(TM) i5-2400 CPU @ 3.10GHz
- 8GB RAM
- SSD硬盘
- CentOS 7
本文中呈现的结果是从该计算机收集的,但当然,很有趣的是在更强大的硬件上重复这些测试。我把这项任务交给我们的读者,这样你就可以在自己的硬件上测试ClickHouse在不同场景下的最大QPS。如果你这样做了,请分享你的结果!为了运行基准测试,我还创建了一组脚本,可以在Altinity的GitHub上免费获取:https://github.com/Altinity/clickhouse-sts/。这些脚本需要Docker(我使用的是v18.09)和Bash。要运行测试套件,只需克隆GitHub存储库,并在根文件夹中运行‘make test’命令。它会在你的主机上执行所有测试(需要几个小时),并将结果放入一个CSV文件中,稍后可以在Excel、Pandas或ClickHouse本身中进行分析。当然,你也可以分享你的发现,以便与本文中的结果进行比较。
这些脚本使用了以下工具:
- https://github.com/wg/wrk,一个轻量级且快速的HTTP基准测试工具,允许创建不同的HTTP工作负载
- ClickHouse发行版中包含的clickhouse-benchmark工具,用于本地协议ClickHouse测试
这两个工具都允许你创建所需并发量的负载(模拟不同数量的并发客户端),并测量每秒处理的查询数和延迟百分位数。
关于ClickHouse处理并发请求的几点说明
默认情况下,ClickHouse可以处理高达4096个入站连接(max_connections在服务器配置文件中设置),但只会同时执行100个查询(max_concurrent_queries),因此所有其他客户端将在队列中等待。客户端请求可以保持在队列中的最长时间由queue_max_wait_ms设置定义(默认为5000或5秒)。这是一个用户/配置文件设置,因此用户可以定义较小的值,在队列过长的情况下提示异常。http连接的长连接超时默认相对较短 — 3秒(keep_alive_timeout设置)。
还有许多高级网络相关设置,用于微调不同的超时、轮询间隔、监听回溯大小等设置。
HTTP ping:HTTP服务器的理论最大吞吐量
首先,让我们检查ClickHouse自身使用的HTTP服务器有多快。换句话说,服务器可以处理多少个“无所事事”的请求。
对于HTTP,两种主要情况很重要:
- 使用保持连接(保持持久连接进行多个请求,而无需重新连接)
- 不使用保持连接(每个请求都建立新连接)
此外,默认情况下ClickHouse的日志级别非常详细(‘trace’)。对于每个查询,它会向日志文件写入几行,这对于调试很好,但当然会增加一些额外的延迟。因此,我们还要检查禁用日志的相同2种场景。
我们对不同并发级别进行了测试,以模拟不同数量的同时连接的客户端(一个接一个地发送请求)。每个测试执行15秒,然后取每秒处理的平均请求数。
结果:
在X轴上,您可以看到同时连接的客户端数。在Y轴上,我们有每个特定场景中每秒处理的平均请求数。
好吧,结果看起来不错:
- 在每个场景中,在8到64个并发连接之间,QPS的最大值都在那台机器上。
- 最大吞吐量约为97K QPS,启用保持连接并禁用日志。
- 启用日志时,速度要慢大约30%,大约为71K QPS。
- 两个不使用保持连接的变体要慢得多(约为18.5 kqps),甚至在这里看不出日志开销。这是预期的,因为使用保持连接,ClickHouse肯定可以处理更多的ping,因为跳过了为每个请求建立连接的额外成本。
现在我们对最大理论可能吞吐量有了感觉,以及ClickHouse Web服务器可以实现的并发级别。实际上,ClickHouse的HTTP服务器实现相当快。例如,NGINX在相同的机器上使用默认设置大约可以提供30K每秒。
SELECT 1
让我们再进一步,检查一个微不足道的 ‘SELECT 1’ 请求。这样的查询在查询解析阶段被‘执行’,因此这将展示‘网络 + 授权 + 查询解析器 + 格式化结果’的理论最大吞吐量,即真实请求永远不会更快。
我们将测试使用保持连接和不使用保持连接的http和https选项,以及本地客户端(安全和非安全)。
结果如下:
这些结果与简单的ping相比显示了相当大的降级。我们得到了:
- 最佳情况下约为14K QPS:http & 保持连接。
- https & 保持连接情况稍差(13K QPS)。在这种情况下,https的开销并不显著。
- http 不使用保持连接时约为10.7 kqps。
- 本地客户端(不安全)约为10.1 kqps。
- 本地客户端(安全)约为9.3 kqps。
- 无保持连接的https表现相当差,约为4.3 kqps。
在最高并发级别上,我们注册了几十个连接错误(即少于0.01%),这很可能是由于操作系统层面的套接字重用问题引起的。ClickHouse在该测试中表现稳定,我没有注册到任何明显的问题。
本地协议显示的性能比http更差可能会让人惊讶,但实际上这是预期的:本地TCP/IP更加复杂,具有许多额外的协议特性。它不适合高QPS,而是适合传输大块数据。
此外,在本地客户端中,随着并发性增加,QPS会出现相当大的下降,在更高的并发级别(>3000)时系统会变得不响应并返回无结果。这很可能是由于clickhouse-benchmark工具为每个连接使用一个单独的线程,线程数和上下文切换过多导致的。
现在让我们看看延迟,即每个客户端等待答案的时间。这个数字在每个请求中会有所变化,因此图表显示了每种情况下延迟的90th percentile。这意味着90%的用户得到的答案比显示的数字更快。
延迟(90th percentile)– 1-256 并发级别
随着并发性的增长,延迟的恶化是可以预料的。目前看起来非常不错:如果您少于256个并发用户,您可以期望延迟在50毫秒以下。
让我们看看高并发性会如何影响。
延迟(90th percentile)– >256 并发级别
现在延迟的恶化更为显著,而且本地协议再次显示出最差的结果。
有趣的是,不使用保持连接的http请求表现非常稳定,并且即使有2K并发用户,延迟也低于50ms。没有保持连接时,延迟更加可预测,并且标准差在并发性增加时保持较小,但QPS会略有降低。这可能与Web服务器的实现细节有关:例如,当使用每个连接一个线程时,线程上下文切换可能会减慢服务器速度,并在一定并发级别后增加延迟。
我们还检查了其他设置,如max_concurrent_queries、queue_max_wait_ms、max_threads、network_compression_method、enable_http_compression以及一些输出格式。在这种情况下调整它们的影响大多是可以忽略的。
多线程的影响
默认情况下,ClickHouse使用多个线程处理更大的查询,以有效利用所有CPU核心。
然而,如果您有大量并发连接,多线程将会增加上下文切换、重新加入线程和工作同步方面的额外成本。
为了衡量并发连接与多线程之间的相互作用,让我们来看一下使用默认多线程设置和max_threads=1设置进行的合成选择,以找到最大的100K个随机数的差异。
结论非常简单:在高并发场景中实现更高的QPS,使用max_threads=1设置。
未完待续…
本文涵盖了对ClickHouse的一般连接性测试。我们检查了服务器本身的速度有多快,它可以处理多少简单查询以及哪些设置会影响高并发场景下的QPS。请查看后续文章,我们将深入估算在键值场景中实际查询的最大QPS,这将为测试案例添加数据。
关注我,紧跟本系列专栏文章,咱们下篇再续!
作者简介:魔都技术专家兼架构,多家大厂后端一线研发经验,各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。
负责:
- 中央/分销预订系统性能优化
- 活动&优惠券等营销中台建设
- 交易平台及数据中台等架构和开发设计
目前主攻降低软件复杂性设计、构建高可用系统方向。
参考:
本文由博客一文多发平台 OpenWrite 发布!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
重新审视 CXL 时代下的分布式内存
消息传递与分布式共享内存 随着摩尔定律增长的逐渐减缓,系统规模的水平扩展已经成为提升系统性能的关键策略。然而,这种扩展依赖于分布式系统架构的支持,而分布式编程的固有复杂性给构建高效、可靠及弹性的系统带来了严峻挑战。因此,简化分布式编程依旧是分布式编程框架追求的核心目标。 如图所示,在分布式编程领域,目前主流的编程范式主要分为两类:消息传递(Message Passing,MP)和分布式共享内存(Distributed Shared Memory,DSM)。DSM 范式因其提供一致的内存空间视图和抽象化的数据通信复杂性而更易于使用,这样的设计让分布式应用程序的能够直接编程就像在单机上进行多线程编程一样简单。然而,在实际应用中,较为直接但不太直观的 MP 模型却更为普遍。开发者对 MP 的偏好很大程度上基于这样一个假设:远程通信的高昂开销显著影响了 DSM 系统的性能。 但是随着网络和互联技术的飞速发展,研究者在逐渐改变对于该领域的看法,特别是随着Compute Express Link(CXL)技术的推出,我们站在了一个重新思考传统分布式编程范式的新起点。这个技术突破促使我们必须重新评...
- 下一篇
BMC 调测载板解读第二期:eBMC配套载板硬件资源介绍
1 概述 CB-E2K-BMC-D4 是配合 eBMC 模块 eBMC-D4 进行验证测试工作的载板。借助配套载板,开发者可基于载板和 eBMC 模块进行初步功能开发和功能验证。 载板的核心功能有以下四点: (1)载板具备 COME 标准插座,支持 CPU 模块 FT-208-COME-B 的接入(CPU型号为 D2000/8)。 (2)载板具备飞腾标准的 DDR4 BMC 标准接口。 (3)载板具备多路测试点和对应的插针或者 LED,并连接到 BMC 模块对应的 I/O 或者通信管脚。 (4)eBMC 启动不依赖 COME 模块,可不接 COME 模块进行独立验证(KVM功能不可用)。 CB-E2K-BMC-D4 载板设计,是通过构建 “可插拔 CPU 模块+具备完整被测信号的载板+ eBMC 模块” 的方式,便捷、快速、完整的验证 eBMC 模块所有的基本功能。同时,用户除了通过 “飞腾服务器+ eBMC 模块” 这种传统的功能开发和验证方式之外,具备了更多的验证方式选择。 2 方案详情 整套验证方案由 “可插拔 CPU 模块+具备完整被测信号的载板+ eBMC 模块” 的方式组成...
相关文章
文章评论
共有0条评论来说两句吧...