解Bug之路-记一次调用外网服务概率性失败问题的排查-低调大师

解Bug之路-记一次调用外网服务概率性失败问题的排查

2019-10-24 652

前言

和外部联调一直是令人困扰的问题，尤其是一些基础环境配置导致的问题。笔者在一次偶然情况下解决了一个调用外网服务概率性失败的问题。在此将排查过程发出来，希望读者遇到此问题的时候，能够知道如何入手。

起因

笔者的新系统上线，需要PE执行操作。但是负责操作的PE确和另一个开发在互相纠缠，让笔者等了半个小时之久。本着加速系统上线的想法，就想着能不能帮他们快速处理掉问题，好让笔者早点发完回去coding。一打听，这个问题竟然扯了3个月之久，问题现象如下:

每个client都会以将近1/2的概率失败,而且报错都为:

着手排查

和appserver开发以及对应的PE交流发现，appserver和nginx之间是短连接，由于是socketTimeOutException,于是能够排除appserver和nginx建立连接之间的问题。去nginx上排查日志，发现一个奇异的现象，如下图所示:

所有的appserver都是调用一台nginx一直成功，而调用另一台nginx大概率失败。而两台nginx机器的配置一模一样，还有一个奇怪的点是,只有在调用出问题的对端服务器时才会失败，其它业务没有任何影响,如下图所示:

由于这两个诡异的现象导致开发和PE争执不下，按照第一个现象一台nginx好一台nginx报错那么第二台nginx有问题是合理的推断,所以开发要求换nginx。按照第二个现象,只有调用这个业务才会出错，其它业务没有问题，那么肯定是对端业务服务器的问题,PE觉得应该不是nginx的锅。争执了半天后，初步拟定方案就是扩容nginx看看效果-_-!笔者觉得这个方案并不靠谱，盲目的扩容可能会引起反效果。还是先抓包看看情况吧。

抓包

其实笔者觉得nginx作为这么通用的组件不应该出现问题，问题应该出现在对端服务器上。而根据对端开发反应，他自己curl没问题，并现场在他自己的服务器上做了N次curl也没有任何问题(由于这个问题僵持不下，他被派到我们公司来协助排查)。于是找网工在防火墙外抓包,抓包结果如下:

时间点源ip 目的ip 协议 info

2019-07-25 16:45:41 20.1.1.1 30.1.1.1 tcp 58850->443[SYN]

2019-07-25 16:45:42 20.1.1.1 30.1.1.1 tcp [TCP Retransmission]58850->443[SYN]

2019-07-25 16:45:44 20.1.1.1 30.1.1.1 tcp [TCP Retransmission]58850->443[SYN]

由于appserver端设置的ReadTimeOut超时时间是3s,所以在2次syn重传后，对端就已经报错。如下图所示:

(注:nginx所在linux服务器设置的tcp_syn_retries是2)

抓包结果分析

从抓包得出的数据来看，第二台nginx发送syn包给对端服务,对端服务没有任何响应，导致了nginx2创建连接超时，进而导致了appserver端的ReadTimeOut超时(appserver对nginx是短连接)。

按照正常推论，应该是防火墙外到对端服务的SYN丢失了。而阿里云作为一个非常稳定的服务商，应该不可能出现如此大概率的丢失现象。而从对端服务器用的是非常成熟的SpringBoot来看，也不应该出现这种bug。那么最有可能的就是对端服务器本身的设置有问题。

登陆对端服务器进行排查

由于对方的开发来到了现场，于是笔者就直接用他的电脑登录了服务所在的阿里云服务器。首先看了下dmesg,如下图所示，有一堆报错:

感觉有点关联，但是仅靠这个信息无法定位问题。紧接着，笔者运行了下netstat -s:

这条命令给出了非常关键的信息,翻译过来就是有16990个被动连接由于时间戳(time stamp)而拒绝！查了下资料发现这是由于设置了

在NAT情况下将会导致这个被动拒绝连接的问题。而为解决上面的dmesg日志,网上给出的解决方案就是设置tcp_tw_recycle=1而tcp_timestamps默认就是1,同时我们的客户端调用也是从NAT出去的，符合了这个问题的所有特征。于是笔者尝试着将他们的tcp_timestamps设为0，

又做了几十次调用，再也没有任何报错了！

linux源码分析

问题虽然解决了，但是笔者想从源码层面看一看这个问题到底是怎么回事，于是就开始研究对应的源码(基于linux-2.6.32源码)。由于问题是发生在nginx与对端服务器第一次握手(即发送第一个syn)的时候，于是我们主要跟踪下这一处的相关源码:

关于tcp_timestamps的代码就在tcp_v4_conn_request里面,我们继续追踪(以下代码忽略了其它不必要的逻辑):

int tcp_v4_conn_request(struct sock *sk, struct sk_buff *skb)
{
    ......
    /* VJ's idea. We save last timestamp seen
     * from the destination in peer table, when entering
     * state TIME-WAIT, and check against it before
     * accepting new connection request.
     * 注释大意为:
     * 我们在进入TIME_WAIT状态的时候将最后的时间戳记录到peer tables中，
     * 然后在新的连接请求进来的时候检查这个时间戳
     */
     // 在tcp_timestamps和tcp_tw_recycle开启的情况下
    if (tmp_opt.saw_tstamp &&
        tcp_death_row.sysctl_tw_recycle &&
        (dst = inet_csk_route_req(sk, req)) != NULL &&
        (peer = rt_get_peer((struct rtable *)dst)) != NULL &&
        peer->v4daddr == saddr) {
        /** TCP_PAWS_MSL== 60 */
        /** TCP_PAWS_WINDOW ==1 */
        // 以下都是针对同一个对端ip
        // tcp_ts_stamp 对端ip的连接进入time_wait状态后记录的本机时间戳   
        // 当前时间在上一次进入time_wait记录的实际戳后的一分钟之内
        if (get_seconds() < peer->tcp_ts_stamp + TCP_PAWS_MSL &&
        // tcp_ts 最近接收的那个数据包的时间戳(对端带过来的)
        // 对端当前请求带过来的时间戳小于上次记录的进入time_wait状态后记录的对端时间戳
            (s32)(peer->tcp_ts - req->ts_recent) >
                        TCP_PAWS_WINDOW) {
            // 增加被动连接拒绝的统计信息
            NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_PAWSPASSIVEREJECTED);
            // 进入丢弃和释放阶段
            goto drop_and_release;
        }
    }   
    ......
}

上述代码的核心意思即是在tcp_timestamps和tcp_tw_recycle开启的情况下，同样ip的连接，在上个连接进入time_wait状态的一分钟内，如果有新的连接进来，而且新的连接的时间戳小于上个进入time_wait状态的最后一个包的时间戳，则将这个syn丢弃，进入drop_and_release。我们继续跟踪drop_and_release:

我们继续看下如果tcp_v4_conn_request返回0的话，系统是什么表现:

从源码的跟踪可以看出，出现此种情况直接丢弃对应的syn包，对端无法获得任何响应从而进行syn重传，这点和抓包结果一致。

和问题表象一一验证

为什么会出现一台nginx一直okay，一台nginx失败的情况

由于tcp的时间戳是指的并不是当前本机用date命令给出的时间戳。这个时间戳的计算规则就在这里不展开了，只需要知道每台机器的时间戳都不相同即可(而且相差可能极大)。由于我们调用对端采用的是NAT，所以两台nginx在对端服务器看来是同一个ip,那么这两台的时间戳发送到对端服务器的时候就会混乱。nginx1的时间戳比nginx2的时间戳大,所以在一分钟之内，只要出现nginx1的连接请求(短连接)，那么之后的nginx2的连接请求就会一直被丢弃。如下图所示:

为什么对端自测一直正常

因为本机调用本机的时时间戳是一台机器(本机)上的，所以不会出现混乱。

为什么nginx2调用其它服务是正常的

因为其它外部服务所在服务器并没有开启tcp_tw_recycle。这个问题事实上将tcp_tw_recycle置为0也可以解决。另外，高版本的linux内核已经去掉了tcp_tw_recycle这个参数。

总结

由于当前ip地址紧缺和DNS报文大小的限制(512字节),大部分网络架构都是采用NAT的方式去和外部交互，所以设置了tcp_tw_recycle为1基本都会出现问题。一般这种问题需要对tcp协议有一定的了解才能够顺藤摸瓜找到最终的根源。

微信关注我们

原文链接：https://blog.51cto.com/14528283/2445157

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

迈克尔·戴尔来京出席2019戴尔科技峰会

坚定履行在中国的长期发展承诺中国北京 – 2019年10月25日戴尔科技集团董事长兼首席执行官迈克尔·戴尔先生专程来华出席2019戴尔科技峰会，强调将继续坚定履行对中国的长期承诺。戴尔科技集团不断强化与各行各业的广泛合作，与多个地方政府、高校、企业签署战略合作协议，显示了集团继续深耕中国的决心。戴尔先生在峰会现场，同教育部领导一起，通过戴尔科技集团的5G+Cloud+VR教育解决方案，与远在四川成都和凉山两所小学的学生进行了实时互动。峰会全面展示了戴尔科技集团从边缘计算到数据中心到云计算的创新产品组合与解决方案，推出了以第五代存储为代表的业界领先的系列新品。 “在中国，为中国”戴尔中国4.0战略实施5年来，落地生根，硕果累累。未来戴尔科技集团将继续深化戴尔中国4.0+战略，为中国经济发展作出更大贡献。 10月25日，以“拓界·成真”为主题的2019戴尔科技峰会在北京国家会议中心隆重举行。戴尔科技集团董事长兼首席执行官迈克尔·戴尔先生出席峰会，发表主题演讲，见证集团与多个地方政府、高校、企业签署战略合作协议，并与教育部领导一起，通过戴尔科技集团的5G+Cloud+VR教育解决方...

2019-10-25

751

一、单体架构单体架构在中等偏小的业务中比较常见，场景模式就是单个应用、单个数据库。一个程序包（例如war格式或者Jar格式）包含所有业务需求功能，这是一种比较传统的架构风格。单体架构的缺陷复杂性高,整个项目包含的模块多，依赖模糊，修改程序容易触发不可知问题。扩展能力受限,单体应用只能整体进行扩展，无法针对业务模块的特性进行伸缩。稳定性差,任何微小的问题，都可能导致整个应用服务直接挂掉。二、微服务架构微服务架构是一种架构概念，核心思想在于通过将业务功能和需求分解到各个不同的服务中进行管理，实现对业务整体解耦。围绕业务模式创建应用服务，应用服务可独立地进行开发、迭代、部署。使项目的架构更加清晰明确。微服务优劣势单个服务对应单个业务功能，方便理解，开发，维护; 服务独立部署，可以根据每个服务的请求量来部署满足需求的规模; 数据库，服务，架构，业务拆分等难度增大，对技术能力要求较高; 三、项目简介微服务架构案例核心内容，基于SpringCloud框架几个核心组件，Eureka服务注册与发现组件，Feign声明式的WebService客户端组件，Zuul动态路由网关组件。进行...

2019-10-24

694

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。