每日一博 | 限速器的优化实践探索-低调大师

每日一博 | 限速器的优化实践探索

2023-03-25 379

限速器（rate limiter）是一个非常基础的网络包处理功能，被广泛应用于各类网元设备，在流量调度、网络安全等领域发挥着重要作用。常见的限速器的实现方式基于令牌桶（token bucket），尽管令牌桶的原理已经被人熟知，在具体实践中，我们也发现了一些挑战和共性问题。本文总结了近两年字节跳动系统与技术工程团队（简称 STE 团队）在限速器优化方面的一些探索，将一些经验和教训总结出来，以飨读者。

令牌桶限速器的基本原理

相信每个写网络包处理的工程师都写过基本的令牌桶限速器。令牌桶是一个形象的描述，既可以想象有一个桶可以容纳一定量的令牌（token），每放行一个数据包便消耗一定量的令牌，数据包的放行与否取决于令牌桶中的令牌个数。

图1 令牌桶图示

比如，如果令牌桶限制的是 PPS (Packet Per Second），假设一个令牌代表一个数据包。那么一个限定 PPS 为 300K/s 的限速器，每秒会产生的令牌数则是 300K 个。任何一个数据包经过这个限速器，则消耗一个令牌，如果令牌消耗到 0，则进行丢包。

假设 $P_t $ 表示到达时间是 $t$ 的数据包，令牌桶上一个经过的数据包的时间为 $t' $ ，那么在这段时间内，令牌桶产生的令牌数为：

$(t - t') * rate$

令牌桶里剩余的令牌桶的个数为$T $ ，那么当 $P_t $ 到达时，令牌桶内的令牌为：

$(t - t') * rate + T$

令牌桶是有容量的，上述公式的值可能会超过令牌桶的容量，假设令牌桶的容量为 $Burst $ ，如果上述计算的值超过了这个限定，则令牌数等于$Burst $ 。

此时因为数据包 $P_t$ 要经过，则应该消耗 1个令牌，于是更新令牌桶的时间戳为 $t' $ 并按照上述计算更新令牌桶内的令牌数目。如果通过计算发现产生的令牌数超过了消耗，那么放行数据包；如果不是，则需要丢弃数据包。

可能会有人疑惑，为何令牌桶的容量是有限的，而为何最大的容量取名为 $Burst$ ，这其实是因为令牌桶其实是允许在特定的时间窗口内的速率超过限定值。以 300Kpps 限速器为例子，假设 $Burst$ 等于 300K，并且当前令牌桶是满的，此时，即使 100ms 内来了 300K 个包，那么令牌桶也会放行所有数据包（因为令牌桶的令牌数是够用的），而在这 100ms 内，实际速率不是 300Kpps，而是 3Mpps。顾名思义，令牌桶的容量其实限定了其允许的突发速率。

在具体实践中，令牌桶具有实现简单、效率高等特点，在很多场景下，提到限速器，基本是令牌桶的代名词。

存在的问题

在具体工程时间中，我们遇到了以下三个问题：

1. 精度问题

实际工程实践中，时间计量单位其实是受限于系统，比如时间戳可能是以微秒(us)为单位，而每次计算的时间差可能只有 1~2us。那么一个 PPS=300K 的限速器，可能一次计算，所产生的令牌是 0.3 个，容易被整数运算忽略。最终的结果则是，实际限制为 300K/s，最后效果是只有 250Kpps 流量放行。精度过低，效果不理想。

这种解决方式也比较简单，可以让一个数据包消耗的令牌量不是 1个，而是 1000个。这样，即使 1us，令牌桶产生的令牌数是 300个，而非 0.3个，这样便保证了精度。但此时又引入了新的问题，因为令牌数扩大了 1000 倍，此时需要考虑令牌桶的深度是否会溢出 32bit。一旦溢出，则会出现其他诡异的问题。

2. 级联补偿问题

图2 限速器级联补偿

我们在实践中发现，多个限速器级联的时候，需要补偿令牌。比如对于限速器 A，这个包是放行，消耗了 A 的令牌。对于限速器 B，这个包是丢弃，因为 B 没令牌了。此时包被丢了。那么此时 A 的令牌就白白消耗了，即消耗了 token，然后包还是丢了。如果想达到一个准确的限速效果，限速器A的令牌应该被补偿。如图 2 所示那样。

级联补偿使得多个限速器互相耦合，在代码编写上也比较麻烦。我们在实际中发现，如果限速器 A 和限速器 B 的限速值接近，并且都有丢包，那么缺乏级联补偿会对精度有严重影响。但如果限速值差的很远，则对精度的影响没有那么大。

3. TCP对丢包敏感问题

令牌桶是没有缓存的，一旦速率超过限定值，则会出现丢包。而 TCP 协议则对丢包非常敏感，一旦出现丢包，TCP 的对速率的调整比较激进。令牌桶这一特性使得他在应用于 TCP 这种流量时，经常会导致限制 100Mbps，实际上最多只能跑到 80Mbps，因为不断的丢包导致 TCP 不断地降低发送窗口。

在 vSwitch 的使用时，BPS （Bits Per Second）限速对 TCP 的损耗尤其大，这是因为，一般虚拟网卡都开启了 TSO（TCP Segmentation Offload）优化，开启 TSO 情况下，主机向外发送的 TCP 包都很大，一个包有可能是 64K 字节，在这么大的情况下，随便丢若干个包，就对 TCP 的速率影响非常明显了。

第一次改进：端口借贷反压限速器

我们在实践中发现，级联补偿反馈问题虽然存在但不是非常突出，原因是一般级联的限速器的限速值差距很大，比如单网卡的速率和整机速率，一般差距较大，不容易出现精度问题。最严重的问题是 TCP 丢包敏感导致的限速带宽达不到，影响用户体验。由图3所示，随着 TCP RTT 的增加，实际可以达到的带宽会明显下降。

图3 流量通过1Gbps限速器之后，实际获得速率

反压（backpressure），就是针对 TCP 对丢包敏感这一问题进行的改进。我们在第一次设计的时候，其实针对的是一个特定的场景。既虚机的虚拟网卡进行限速。而且我们的限速器正好是每个网卡有一个特定的限速器。

每个虚拟网卡都有若干队列，vSwitch 会持续的轮询这些队列拿到数据包发出。这些队列本质上其实就是包的缓存区。反压，其实就是停止或者延缓对这些队列的轮询发包，让数据包在队列上堆积，而达到将压力反馈到 Guest Kernel 的目的，这样 Guest Kernel 的 TCP 栈就会感知到拥塞，调整发送的节奏。

图4 反压限速器

当时我们设计反压限速器的时候，有一个限制影响了最后的实现：

虚机的虚拟网卡没有提供 Peek 功能，即 vSwitch 只是 Peek 数据包，而非真正将数据包从队列中拿出。这一个限制导致了我们利用了“借贷”的思想。既设置一个开始轮询的准许时间点，如果当前时间超过了准许时间点，那么将队列中的数据包一股脑全部发出，不考虑令牌是否足够，如果令牌足够则没有问题，但是当令牌不够了，那么就考虑向未来借贷一笔令牌，反向计算出一个未来的时间戳，那么在这个时间戳之前，vSwitch 停止轮询虚拟网卡。

借贷方法的提出，一开始只是为了性能考虑，避免好不容易将数据包从虚机队列拷贝出来，却发现令牌不够又只能丢弃。既然不想丢弃，索性就向未来借贷一笔令牌都发出去。

如今回过头来看这个设计，和 Peek 相比，其实有好有坏：

1）每次借贷的令牌量，不可控。这会导致公平性问题。大象流会不断的获取借贷资格，而小流则会趋向于饿死，在限速器竞争中，如果一方取得了优势，优势方容易持续获得优势。

2）简单的时间戳比较，开销比 peek 低。如果能够 peek 数据包，就不会有借贷的机制，也就没有停止轮询的可能，而是每次都会去虚拟队列里查看，反而开销有点大。

3）反过来，有 peek 功能的话，也可以先看看队列里积压的数据包，可以等待队列积累了一定量数据包之后，计算将下一次 Batch 个数据包发出的时间戳，在此之前都停止轮询。这对增加 batch 提升性能反而有好处。

反压限速器因为反压的是虚机的网卡队列，只能对虚机往外发数据包有限制，而无法限制虚机的收方向的流量。这是因为我们无法反压物理网卡的数据包，物理网卡的数据包可能发往不同的虚拟网卡，每个网卡的限速值是不一样的，我们无法计算出一个确切的时间点，在这个时间点之前可以不用轮询数据包。况且，物理网卡队列满了之后，只会丢包，而虚机网卡队列满了之后，可以反压 TCP 协议栈，两者效果是不一样的。

因此在入向流量的限制上，我们只是延续了准许时间戳的思想。如果当前时间超过准许时间，就放行所有数据包，如果没有，则丢弃所有数据包。

第二次改进：Carousel限速器

Carousel 限速器是 Google 在 SIGCOMM 17' 上的论文提出的一种限速器算法[2]，实际上想法也很简单，即给每个数据包计算一个发出的时间戳，如果当前时间戳小于发出时间戳，则缓存在一个时间轮里，即不是丢包，而是将数据包延迟发送。

图5 Carousel限速器

我们基于这个算法基本原理，在 OVS-DPDK 实现了一个类似限速器，这中间有很多细节决定了算法的参数，比如一次轮询的时间粒度是 1us 还是 10us ？实际使用的限速器的速率区间在什么范围？是 300Kpps 还是 3Mpps？这些都直接决定了算法的参数设置，诸多细节就不展开说明了。

Carousel 最大的一个好处是引入了缓存。时间轮的本质就是一个缓存，这个对 TCP 流量有明显的好处，同时，时间轮也解决了虚机入向流量的无法反压的问题，使得所有的流量都能统一在一个时间轮下。第三个好处，可能有点意想不到，就是它一定程度的消除了级联补偿的必要性，因为数据包不在丢包，而是延迟发送。在没有丢包的情况下，不需要级联补偿。

下图是在限速 10Gbps 下，通过 iperf 工具，测试 100s 情况下，虚机出入向，在使用老的反压限速器和新的 Carousel 限速器的对比效果。

横轴是时间（s)，竖轴是吞吐（Gbps），即每秒 iperf 报告出的当前的吞吐性能。可以看到入向流量增加了 500Mbps。更靠近 10Gbps。

出向吞吐性能，可以看出 Carousel 限速器更加稳定：

这些改进的源头，都来自于缓存对 TCP 流量的平滑作用。

未来的改进和小结

1. 进一步改进

基于借贷机制的反压限速，当限速值较大时，因借贷超发的数据包对整个限速抖动影响是有限的。比如限速 1G，在某个时刻超发几个包，对限速的抖动影响是比较小的。但是如果限速值很小，比如小到 5Mbps，那么超发几个数据包的影响就会比较大。此时，通过时间戳控制虚机端口的轮询，会带来 ON-OFF 效应，既在虚机看来，出向流量的路径上，好像有一个闸门，一会打开，一会关闭。

但这只是在虚机发送端视角看到的情况，接收端因为有时间轮的调节，速率会比较稳定。为在发送端带来比较稳定的体验，需要将反压的效果更加细化，既降低超发的几率。

此外，基于端口粒度的限速可以通过控制端口的轮询来实现，但是对于粒度小于端口的限速，则不好实现反压。为了实现更细粒度的反压，Google 在论文 PicNIC[3] 中，在Carousel 之上，利用 virtio 支持 OOO completion (乱序完成) 的特点，实现了更细粒度的反压，这些都为进一步优化限速器提供了思路。

2. 主动限速（基于ECN或者修改TCP window选项）

我们可以在 vSwitch 中对 TCP 的 Window 窗口进行跟踪修改，协商一个小窗口进行的方式，获得更平稳的 TCP 吞吐。同时ECN标记也可以在 vSwitch 中进行感知，通过直接或者间接的方式反馈到虚机内部，或者影响 vSwitch 的轮询频率。

3. 锁机制改进

以上所有的限速器改进均是针对网络方面，系统方面由于多核存在，而限速器的粒度经常跨越线程，如何设计一个无锁的限速器也是一个值得探索的方向。

4. 小结

从限速器的改进历史中可以看出，当前的算法已经越来越和实际场景相关。算法不再只是一个独立的组件，而越来越和实际的运行系统和产品特性紧密耦合。

参考文献

[1] Traffic policing in eBPF: applying token bucket algorithm

[2] Carousel: Scalable Traffic Shaping at End Hosts, SIGCOMM 2017.

[3] PicNIC: Predictable Virtualized NIC, SIGCOMM 2019

微信关注我们

原文链接：https://my.oschina.net/u/6150560/blog/8590677

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Rust 1.68.1 发布

Rust 团队于近日发布了 Rust 1.68.1 新版本，1.68.1 是一个错误修复版本，主要更新内容如下： Rust 1.68.1 稳定版主要包含对 Rust 的 CI 构建 Windows MSVC 编译器方式的改变，不再为 Rust 代码启用 LTO。目前认为这对 ThinLTO 的广泛使用没有影响。Rust 编译器在编译过程中使用了一个不稳定的标志来启用 ThinLTO。该版本中还包括一些其他的修复：修复了用 --enable-local-rust 构建编译器的问题在链接器检测代码中把 $prefix-clang 视为 clang 修复编译器中的一个 panic 更多详情可查看：https://blog.rust-lang.org/2023/03/23/Rust-1.68.1.html

2023-03-26

361

ProfileMe.dev 是一个 GitHub 个人主页美化工具，可以帮助开发者在几分钟内创建一个更加美观的 GitHub 个人资料页面。这个项目的实时版本可以在 https://www.profileme.dev 上查看。特点用户可以轻松地建立和定制他们的 GitHub 档案，包括以下内容。简介部分（包括基本信息、作品集链接和任何值得注意的当前项目）技能图标（有 60 多种技术和软件可供选择）社交链接（有 18 个社交媒体平台可供选择）徽章和统计数据（可添加到个人资料中的图形元素，如 GitHub 统计徽章、Twitter 关注者数量和 Twitch 流媒体状态）支持网站的链接（如 BuyMeACoffee）技术栈 NextJS TailwindCSS 安装 ProfileMe.dev 有一个非常简单的两步安装过程。 1.安装依赖 npm install 2.运行开发服务器 npm run dev

2023-03-26

660

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。