记一次线上DPDK-LVS的故障排查-低调大师

记一次线上DPDK-LVS的故障排查

2019-03-07 896

背景

我们内部基于dpdk自研的高性能负载均衡器dpvs已经在多个机房部署上线，运行正常，但近期有多个金融相关的业务反馈，服务数据包在经过dpvs转发后，会出现hang住的情况。

问题

dpvs已经在多个机房上线，运行时间已超过半年，为何突然有业务反馈异常反馈问题的业务多与金融区相关（金融区由于其特殊性，会额外增加安全方面的加固策略）为什么问题表现均为服务hang住

问题排查

首先，我们怀疑与dpvs或与金融的某些安全策略相关，因此我们做了如下测试（后端上跑的均是相同的测试代码，并模拟了服务端逻辑）：

client < ----- > dpvs < ----- > rs（金融区）不正常
client < ----- > dpvs < ----- > rs（非金融区）正常
client < ----- > lvs < ----- > rs（金融区）正常
client < ----- > lvs < ----- > rs（非金融区）正常

通过1、2组测试能够得出结论：该问题与金融区相关且dpvs转发正常

通过3、4组测试能够得出结论：该问题与金融区无关且kernel版lvs转发正常

通过1、3组测试能够得出结论：该问题与dpvs有关，经过dpvs的请求不正常

通过2、4组测试能够得出结论：该问题与dpvs/lvs无关，经过dpvs/lvs的请求均正常

以上4组结论两两冲突，无法定位问题是与dpvs相关还是与金融区相关，排查一度进入僵局，无法定位故障点。

为了进一步排查，我们在client和后端rs上抓包排查，发现client的请求均能够正常到达rs，而rs的大部分数据也能够正常回复给client，但有固定的几个包总是会被重传且直至超时，以下是抓包截图：

其中10.128.x.x是rs的ip，10.115.x.0/24是dpvs的local ip，通过在rs上的抓包结果可以清楚的看出rs发给dpvs的length为184的包正确传输，但length为2的包一直在重传，且直至超时都没有成功，同时在client上的抓包显示，client收到了这个length为2的包，但是由于tcp checksum error被丢掉了，并没有交给上层应用去处理，这样就解释了为什么异常时的表现是hang住，因为某个数据包一直在重传，直至timeout。

通过上面的分析，我们又产生了疑问：现在的硬件网卡一般都具有csum offload的功能，能够通过网卡硬件帮我们做checksum，难道是网卡的checksum offload功能出现了问题？如果真是网卡硬件的offload功能出现问题，那影响的应该不是某一个特定的数据包，而是所有经过这块网卡的数据包才对，因此我们怀疑是网卡在针对某个特定数据包的计算checksum的时候产生了错误，为了验证这个问题，我们在dpvs上进行抓包分析，以下是抓包截图：

这个就是被不断重传的包，能够看到dpvs确实收到了这个包，并且处理逻辑也完全正常，剩下的步骤只有通过网卡做checksum并把这个数据包转发出去，问题似乎确实是出在了计算checksum这里，我们在分析这个包有什么特点，可以看到，这个包的初始大小=ethernet header length + ip header length + tcp header length + tcp data = 14 + 20 + 20 + 5 = 59，而我们知道，在网络中传输的数据帧最小长度为64字节，除去FCS的4字节（这部分也由网卡自行计算后添加在数据包末尾），最小长度应为60字节，也就是说，到达网卡的数据包如果不够60字节，那么网卡会在动在数据包末尾增加全0的padding来使数据包能够达到60字节，所以这个数据包也是需要网卡硬件来补充1字节的padding来达到最小传输长度。对此rfc894是这样规定的：

因此rs的网卡在数据包长度不足60字节时需要做两件事情：

补充1字节的padding达到最小长度60字节

补充的padding为全0

可以看到，在二层头中，确实有个补充的1字节的padding：ec，这个padding并没有按rfc894的规定填充成全0，而是填了非0值，这样就造成了dpvs的网卡在计算tcp checksum时把这个padding误当成了tcp data而计算了check sum，因此在client接收到这个数据包并根据ip伪头部和tcp头部计算出来的checksum与数据包tcp头部的checksum不一致，因此并没有把这个数据包交给上层应用处理而是直接drop。

----- 网卡手册针对 TCP/UDP checksum部分的说明

至此，问题的原因已经很明显了：部分机器的网卡在做padding时未按照rfc894的规定补充全0而是补充了其他值，导致dpvs的网卡在做checksum offload时padding的数据也参与了checksum的计算。

分析正常的rs和不正常的rs在网卡硬件上的差别，发现：网卡的硬件型号相同，驱动型号也相同，但不正常的网卡fireware与正常的网卡不相同，而fireware我们没有办法自行升级或降级。

整个故障的过程可以大概表示为：

步骤1：数据包正常，请求数据

步骤2：部分数据包初始长度小于60字节，需要网卡补充padding，网卡先计算checksum填入tcp包头后补充padding至数据包末尾，此时checksum正常，但padding不为全0

步骤3：dpvs收到步骤2的包进行正常转发逻辑处理后转发至网卡，由网卡计算checksum并转发，但在计算新的checksum时由于padding非全0导致checksum计算错误，client收到后丢弃了这个包

ps：以上是rs的网卡在添加padding时补充的不是全0，另一种场景是client的网卡在添加padding时补充的不是全0，这两种情况都会导致上述问题的出现。

问题解决

至此，我们已经能够解释最开始提出的三个问题：

dpvs已经在多个机房上线，运行时间已超过半年，为何突然有业务反馈异常
a：该业务是在某个核心机房上线了dpvs后出现了问题，其他机房很早上线了dpvs但由于其他机房是改业务的备份机房实际并未启用，因此半年多来一直没有发现问题
反馈问题的业务多与金融区相关（金融区由于其特殊性，会额外增加安全方面的加固策略）
a：排查发现是金融区的某一批次机器的fireware存在bug导致，与金融区本身的安全策略无关
为什么问题表现均为服务hang住
a：问题的实质是出现丢包，服务在等待响应，因此表现为hang住

接下来我们将解决该问题：

只要让dpvs在处理数据包时，忽略数据包以前的padding部分，而由dpvs的网卡重新去处理padding（由于网卡计算checksum是在补充padding之前，因此可以保证此时的checksum一定是正确的）。由于dpvs是基于dpdk开发的，数据包在dpvs中是以mbuf的结构保存和处理的，以下是mbuf的结构：

数据帧被存储在headroom和tailroom之间（与skb类似），pkt_len=data_len=整个数据帧的长度，我们要做的就是将padding从data中去除（放到tailroom中去），因此可以在数据包入口处添加以下代码：

int padding_length = mbuf->data_len - (mbuf->l2_len +rte_be_to_cpu_16(ipv4_hdr->total_length));

mbuf->data_len = mbuf->data_len - padding_length;

mbuf->pkt_len = mbuf->data_len;

添加以上代码后测试通过，本次故障解决。

参考资料

https://tools.ietf.org/html/rfc894

http://doc.dpdk.org/guides/prog_guide/mbuf_lib.html

https://www.intel.com/content/dam/www/public/us/en/documents/datasheets/82599-10-gbe-controller-datasheet.pdf

微信关注我们

原文链接：https://blog.51cto.com/10843840/2359422

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

关于jHipster框架在构建中的出现的error修复

jhipster The JDL object and the database type are both mandatory.这个错误应该是在构建基于jHipster的spring-cloud项目中经常遇到的，因为这个在这个过程中会读取.yo-rc文件，之后生成相关的.json文件，再之后生成相关的.java文件，层层依赖，一环扣一环。以下是出错时的系统日志 yerlkyu@HP-Z440:/xxx/xxxx/jdls jhipster import-jdl pl.jdl INFO! Using JHipster vers ion installed globall, INFO! Executing import-jdl pl.jdlINFO! Options: from-cli: true INFO! The JDL is being parsed. Error: The JDL object and the database type are both mandatory. ERROR! Error while parsing applications and entities...

2019-03-03

719

测试推荐环境 CPU: 64位双核处理器内存: 4G DDR3 数据库：mysql 版本大于等于 5.6 mariadb 版本大于等于 5.5.6 环境系统: CentOS 7 IP: 192.168.0.230 设置 selinux 和防火墙 [root@web1 ~]# ip a 1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000 link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 inet 127.0.0.1/8 scope host lo valid_lft forever preferred_lft forever inet6 ::1/128 scope host valid_lft forever preferred_lft forever 2: ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pf...

2019-03-08

613

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。