从Linux源码看Socket(TCP)的listen及连接队列
从Linux源码看Socket(TCP)的listen及连接队列
前言
笔者一直觉得如果能知道从应用到框架再到操作系统的每一处代码,是一件Exciting的事情。 今天笔者就来从Linux源码的角度看下Server端的Socket在进行listen的时候到底做了哪些事情(基于Linux 3.10内核),当然由于listen的backlog参数和半连接hash表以及全连接队列都相关,在这一篇博客里也一块讲了。
Server端Socket需要Listen
众所周知,一个Server端Socket的建立,需要socket、bind、listen、accept四个步骤。 今天笔者就聚焦于Listen这个步骤。
代码如下:
void start_server(){ // server fd int sockfd_server; // accept fd int sockfd; int call_err; struct sockaddr_in sock_addr; ...... call_err=bind(sockfd_server,(struct sockaddr*)(&sock_addr),sizeof(sock_addr)); if(call_err == -1){ fprintf(stdout,"bind error!\n"); exit(1); } // 这边就是我们今天的聚焦点listen call_err=listen(sockfd_server,MAX_BACK_LOG); if(call_err == -1){ fprintf(stdout,"listen error!\n"); exit(1); } }
首先我们通过socket系统调用创建了一个socket,其中指定了SOCK_STREAM,而且最后一个参数为0,也就是建立了一个通常所有的TCP Socket。在这里,我们直接给出TCP Socket所对应的ops也就是操作函数。
如果你想知道上图中的结构是怎么来的,可以看下笔者以前的博客:
https://my.oschina.net/alchemystar/blog/1791017
Listen系统调用
好了,现在我们直接进入Listen系统调用吧。
#include <sys/socket.h> // 成功返回0,错误返回-1,同时错误码设置在errno int listen(int sockfd, int backlog);
注意,这边的listen调用是被glibc的INLINE_SYSCALL装过一层,其将返回值修正为只有0和-1这两个选择,同时将错误码的绝对值设置在errno内。 这里面的backlog是个非常重要的参数,如果设置不好,是个很隐蔽的坑。
对于java开发者而言,基本用的现成的框架,而java本身默认的backlog设置大小只有50。这就会引起一些微妙的现象,这个在本文中会进行讲解。
接下来,我们就进入Linux内核源码栈吧
listen |->INLINE_SYSCALL(listen......) |->SYSCALL_DEFINE2(listen, int, fd, int, backlog) /* 检测对应的描述符fd是否存在,不存在,返回-BADF |->sockfd_lookup_light /* 限定传过来的backlog最大值不超出 /proc/sys/net/core/somaxconn |->if ((unsigned int)backlog > somaxconn) backlog = somaxconn |->sock->ops->listen(sock, backlog) <=> inet_listen
值得注意的是,Kernel对于我们传进来的backlog值做了一次调整,让其无法>内核参数设置中的somaxconn。
inet_listen
接下来就是核心调用程序inet_listen了。
int inet_listen(struct socket *sock, int backlog) { /* Really, if the socket is already in listen state * we can only allow the backlog to be adjusted. *if ((sysctl_tcp_fastopen & TFO_SERVER_ENABLE) != 0 && inet_csk(sk)->icsk_accept_queue.fastopenq == NULL) { // fastopen的逻辑 if ((sysctl_tcp_fastopen & TFO_SERVER_WO_SOCKOPT1) != 0) err = fastopen_init_queue(sk, backlog); else if ((sysctl_tcp_fastopen & TFO_SERVER_WO_SOCKOPT2) != 0) err = fastopen_init_queue(sk, ((uint)sysctl_tcp_fastopen) >> 16); else err = 0; if (err) goto out; } if(old_state != TCP_LISTEN) { err = inet_csk_listen_start(sk, backlog); } sk->sk_max_ack_backlog =backlog; ...... }
从这段代码中,第一个有意思的地方就是,listen这个系统调用可以重复调用!第二次调用的时候仅仅只能修改其backlog队列长度(虽然感觉没啥必要)。
首先,我们看下除fastopen之外的逻辑(fastopen以后开单章详细讨论)。也就是最后的inet_csk_listen_start调用。
int inet_csk_listen_start(struct sock *sk, const int nr_table_entries) { ...... // 这里的nr_table_entries即为调整过后的backlog // 但是在此函数内部会进一步将nr_table_entries = min(backlog,sysctl_max_syn_backlog)这个逻辑 int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries); ...... inet_csk_delack_init(sk); // 设置socket为listen状态 sk->sk_state = TCP_LISTEN; // 检查端口号 if (!sk->sk_prot->get_port(sk, inet->inet_num)){ // 清除掉dst cache sk_dst_reset(sk); // 将当前sock链入listening_hash // 这样,当SYN到来的时候就能通过__inet_lookup_listen函数找到这个listen中的sock sk->sk_prot->hash(sk); } sk->sk_state = TCP_CLOSE; __reqsk_queue_destroy(&icsk->icsk_accept_queue); // 端口已经被占用,返回错误码-EADDRINUSE return -EADDRINUSE; }
这里最重要的一个调用sk->sk_prot->hash(sk),也就是inet_hash,其将当前sock链入全局的listen hash表,这样就可以在SYN包到来的时候寻找到对应的listen sock了。如下图所示:
如图中所示,如果开启了SO_REUSEPORT的话,可以让不同的Socket listen(监听)同一个端口,这样就能在内核进行创建连接的负载均衡。在Nginx 1.9.1版本开启了之后,其压测性能达到3倍!
半连接队列hash表和全连接队列
在笔者一开始翻阅的资料里面,都提到。tcp的连接队列有两个,一个是sync_queue,另一个accept_queue。但笔者仔细阅读了一下源码,其实并非如此。事实上,sync_queue其实是个hash表(syn_table)。另一个队列是icsk_accept_queue。
所以在本篇文章里面,将其称为reqsk_queue(request_socket_queue的简称)。 在这里,笔者先给出这两个queue在三次握手时候的出现时机。如下图所示:
当然了,除了上面提到的qlen和sk_ack_backlog这两个计数器之外,还有一个qlen_young,其作用如下:
qlen_young: 记录的是刚有SYN到达, 没有被SYN_ACK重传定时器重传过SYN_ACK 同时也没有完成过三次握手的sock数量
如下图所示:
至于SYN_ACK的重传定时器在内核中的代码为下面所示:
static void tcp_synack_timer(struct sock *sk) { inet_csk_reqsk_queue_prune(sk, TCP_SYNQ_INTERVAL, TCP_TIMEOUT_INIT, TCP_RTO_MAX); }
这个定时器在半连接队列不为空的情况下,以200ms(TCP_SYNQ_INTERVAL)为间隔运行一次。限于篇幅,笔者就在这里不多讨论了。
为什么要存在半连接队列
因为根据TCP协议的特点,会存在半连接这样的网络攻击存在,即不停的发SYN包,而从不回应SYN_ACK。如果发一个SYN包就让Kernel建立一个消耗极大的sock,那么很容易就内存耗尽。所以内核在三次握手成功之前,只分配一个占用内存极小的request_sock,以防止这种攻击的现象,再配合syn_cookie机制,尽量抵御这种半连接攻击的风险。
半连接hash表和全连接队列的限制
由于全连接队列里面保存的是占用内存很大的普通sock,所以Kernel给其加了一个最大长度的限制。这个限制为:
下面三者中的最小值 1.listen系统调用中传进去的backlog 2./proc/sys/inet/ipv4/tcp_max_syn_backlog 3./proc/sys/net/core/somaxconn 即min(backlog,tcp_ma_syn_backlog,somaxcon)
如果超过这个somaxconn会被内核丢弃,如下图所示:
这种情况的连接丢弃会发生比较诡异的现象。在不设置tcp_abort_on_overflow的时候,client端无法感知,就会导致即在第一笔调用的时候才会知道对端连接丢弃了。
那么,怎么让client端在这种情况下感知呢,我们可以设置一下tcp_abort_on_overflow
echo '1' > tcp_abort_on_overflow
设置后,如下图所示:
当然了,最直接的还是调大backlog!
listen(fd,2048) echo '2048' > /proc/sys/inet/ipv4/tcp_max_syn_backlog echo '2048' > /proc/sys/net/core/somaxconn
backlog对半连接队列的影响
这个backlog对半连接队列也有影响,如下代码所示:
/* TW buckets are converted to open requests without * limitations, they conserve resources and peer is * evidently real one. */ // 在开启SYN cookie的情况下,如果半连接队列长度超过backlog,则发送cookie // 否则丢弃 if (inet_csk_reqsk_queue_is_full(sk) && !isn) { want_cookie = tcp_syn_flood_action(sk, skb, "TCP"); if (!want_cookie) goto drop; } /* Accept backlog is full. If we have already queued enough * of warm entries in syn queue, drop request. It is better than * clogging syn queue with openreqs with exponentially increasing * timeout. */ // 在全连接队列满的情况下,如果有young_ack,那么直接丢弃 if (sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) > 1) { NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_LISTENOVERFLOWS); goto drop; }
我们在dmesg里面经常看到的
Possible SYN flooding on port 8080
就是由于半连接队列满以后,Kernel发送cookie校验而导致。
总结
TCP作为一个古老而又流行的协议,在演化了几十年后,其设计变的相当复杂。从而在出问题的时候变的难于分析,这时候就要reading the fucking source code!而笔者也正是写这篇博客而详细阅读源码的时候偶然间灵光一闪,找到了最近一个诡异问题的根因。这个诡异问题的分析过程将会在近期写出来分享给大家。
欢迎大家关注我公众号,里面有各种干货,还有大礼包相送哦!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
只要十步,你就可以应用表达式树来优化动态调用
表达式树是 .net 中一系列非常好用的类型。在一些场景中使用表达式树可以获得更好的性能和更佳的扩展性。本篇我们将通过构建一个 “模型验证器” 来理解和应用表达式树在构建动态调用方面的优势。 Newbe.Claptrap 是一个用于轻松应对并发问题的分布式开发框架。如果您是首次阅读本系列文章。建议可以先从本文末尾的入门文章开始了解。 开篇摘要 前不久,我们发布了《如何使用 dotTrace 来诊断 netcore 应用的性能问题》,经过网友投票之后,网友们表示对其中表达式树的内容很感兴趣,因此本篇我们将展开讲讲。 动态调用是在 .net 开发是时常遇到的一种需求,即在只知道方法名或者属性名等情况下动态的调用方法或者属性。最广为人知的一种实现方式就是使用 “反射” 来实现这样的需求。当然也有一些高性能场景会使用 Emit 来完成这个需求。 本文将介绍 “使用表达式树” 来实现这种场景,因为这个方法相较于 “反射” 将拥有更好的性能和扩展性,相较于 Emit 又更容易掌握。 我们将使用一个具体的场景来逐步使用表达式来实现动态调用。 在该场景中,我们将构建一个模型验证器,这非常类似于 asp...
- 下一篇
Java 8 有多牛逼?打破一切你对接口的认知!
前段时间面试了一个 39 岁的程序员,结果不是很理想,没看过的点击这里阅读。 最近也面试一些 Java 程序员,不乏工作 4、5 年经验的,当我问他一些 Java 8 的新特性时,大多却答不上来。 比如下面这道题: 栈长:接口里面可以写方法吗? 小A:当然可以啊,默认就是抽象方法。 栈长:那接口里面可以写实现方法吗? 小A:不可以,所有方法必须是抽象的。 栈长:你确定吗? 小A:确定…… 小A看起来对我的问题有点怀疑人生,心里肯定估摸着,我不会在给他埋了什么坑吧。然后他还是仔细再想了一下,最后还是斩钉截铁的告诉我:接口里面只能写抽象方法,不能写实现方法。 栈长:接口里面是可以写实现方法的,Java 8 开始就可以了,你用过 Java 8 吗? 小A:好吧,看来是我学艺不精,Java 8 有了解一点,比如那个 Lambda 表达式,但实际项目中也没怎么用。 通过和小A的交流,我也看到了许多开发者的问题,虽然开发版本用的是 Java 8,但实际用的还是 Java 8 之前的最基础的语法,对 Java 8 新增的特性一无所知。 Java 8 至 2014 年发布至今,已经过了 6 个年头了,...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS8编译安装MySQL8.0.19
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题