用C语言撸了个DBProxy

2019-03-22 882

用C语言撸了个DBProxy

前言

笔者在阅读了一大堆源码后，就会情不自禁产生造轮子的想法。于是花了数个周末的时间用C语言撸了一个DBProxy(MySQL协议)。在笔者的github中给这个DBProxy起名为Hero。

为什么采用C语言

笔者一直有C情节，求学时候一直玩C。工作之后，一直使用Java，就把C渐渐放下了。在笔者最近一年阅读了一堆关于linux Kernel(C)和MySQL(C++)的源码后，就萌生了重拾C的想法。同时用纯C的话，势必要从基础开始造一大堆轮子，这也符合笔者当时造轮子的心境。

造了哪些轮子

习惯了Java的各种好用的类库框架之后，用纯C无疑就是找虐。不过，既然做了这个决定，跪着也得搞完。在写Hero的过程中。很大一部分时间就是在搭建基础工具，例如:

Reactor模型
内存池
packet_buffer
协议分包处理
连接池
......

下面在这篇博客里面一一道来

DBProxy的整体原理

Hero(DBProxy)其实就是自己伪装成MySQL,接收到应用发过来的SQL命令后，再转发到后端。如下图所示:
由于Hero在解析SQL的时候，可以获取各种信息，例如事务这个信息就可以通过set auto_commit和begin等命令存在连接状态里面，再根据解析出来的SQL判断其是否需要走主库。这样就可以对应用透明的进行主从分离以至于分库分表等操作。
当然了，笔者现在的Hero刚把基础的功能搭建好(协议、连接池等)，对连接状态还没有做进一步的处理。

Reactor模式

Hero的网络模型采用了Reactor模式，而且是多线程模型，同时采用epoll的水平触发。

采用多线程模型

为什么采用多线程，纯粹是为了编写代码简单。多进程的话，还得考虑worker进程间负载均衡问题，例如nginx就在某个worker进程达到7/8最大连接数的时候拒绝获取连接从而转给其它worker。多线程的话，在accept线程里面通过取模选择一个worker线程就可以轻松的达到简单的负载均衡结果。

采用epoll水平触发

为什么采用epoll的水平触发，纯粹也是为了编写代码简单。如果采用边缘触发的话，需要循环读取直到read返回字节数为0为止。然而如果某个连接特别活跃，socket的数据一直读不完，会造成其它连接饥饿，所以必须还得自己写个均衡算法，在读到一定程度后，去选择其它连接。

Reactor

整体Reactor模型如下图所示:

其实代码是很简单的，如下面代码所示的就是reactor中的accept处理:

// 中间省略了大量的错误处理
int init_reactor(int listen_fd,int worker_count){
    // 注意，这边需要是unsigned 防止出现负数
    unsigned int current_worker = 0;
    for(;;){
        int numevents = 0;
        int retval = epoll_wait(reactor->master_fd,reactor->events,EPOLL_MAX_EVENTS,500);
        ......
        for(j=0; j < numevents; j++){        
			client_fd = accept(listen_fd, (struct sockaddr *) &client_addr, &client_len))
			poll_add_event(reactor->worker_fd_arrays[current_worker++%reactor->worker_count],conn->sockfd,EPOLLOUT,conn)
			......     
		 }   
}

上面代码中，每来一个新的连接current_worker都自增，这样取模后便可在连接层面上对worker线程进行负载均衡。而worker线程则通过pthread去实现，如下面代码所示:

// 这里的worker_count根据调用get_nprocs得到的对应机器的CPU数量
// 注意，由于docker返回的是宿主机CPU数量，所以需要自行调整
    for(int i=0;i<worker_count;i++){
        reactor->worker_fd_arrays[i] = epoll_create(EPOLL_MAX_EVENTS);
        if(reactor->worker_fd_arrays[i] == -1){
           goto error_process;
        }
        // 通过pthread去创建worker线程
        if(FALSE == create_and_start_rw_thread(reactor->worker_fd_arrays[i],pool)){
            goto error_process;
        }
    }

而worker线程的处理也是按照标准的epoll水平触发去处理的:

static void* rw_thread_func(void* arg){
    ......
    for(;;){
        int numevents = 0;
        int retval = epoll_wait(epfd,events,EPOLL_MAX_EVENTS,500);
        ......
        for(j=0; j < numevents; j++){
        	if(event & EPOLLHUP){
        		// 处理断开事件
                ......
        	}else if(event & EPOLLERR){
        		// 处理错误事件
                ......
        	}
        	
        }else {
            if(event & EPOLLIN){
                handle_ready_read_connection(conn);
                continue;
            }
            if(event & EPOLLOUT){
                hanlde_ready_write_connection(conn);
                continue;
            }
        }
    }
    ......
}

内存池

为什么需要内存池

事实上，笔者在最开始编写的时候，是直接调用标准库里面的malloc的。但写着写着，就发现一些非常坑的问题。例如我要在一个请求里面malloc数十个结构,同时每次malloc都有失败的可能，那么我的代码可能写这样。

void do_something(){
	void * a1 = (void*)malloc(sizeof(struct A));
	if(a1 == NULL){
		goto error_process;
	}
	......	
	void * a10 = (void*)malloc(sizeof(struct A));
	if(a10 == NULL{
		goto error_process;
	}
error_process:
	if(NULL != a1){
		free(a1);
	}	
	......
	if(NULL != a10){
		free(a10);
	}
}

写着写着，笔者就感觉完全不可控制了。尤其是在各种条件分支加进去之后，可能本身aN这个变量都还没有被分配，那么就还不能用(NULL != aN),还得又一堆复杂的判断。有了内存池之后，虽然依旧需要仔细判断内存池不够的情况，但至少free的时候，只需要把内存池整体给free掉即可,如下面代码所示:

void do_something(mem_pool* pool){
	void * a1 = (void*)mem_pool_alloc(sizeof(struct A),pool);
	if(a1 == NULL){
		goto error_process;
	}
	......	
	void * a10 = (void*)mem_pool_alloc(sizeof(struct A),pool);
	if(a10 == NULL{
		goto error_process;
	}
error_process:
	// 直接一把全部释放
	mem_pool_free(pool);		
}

内存池的设计

为了编写代码简单，笔者采用了比较简单的设计,如下图所示:

这种内存池的好处就在于分配很多小对象的时候，不必一一去清理，直接连整个内存池都重置即可。而且由于每次free的基本都是mem_block大小，所以产生的内存碎片也少。不足之处就在于，一些可以被立即销毁的对象只能在最后重置内存池的时候才销毁。但如果都是小对象的话，影响不大。

内存池的分配优化

考虑到内存对齐，每次申请内存的时候都按照sizeof(union hero_aligin)进行最小内存分配。这是那本采用<<c interface and implemention>>的推荐的对齐大小。

采用<<c interface and implemention>>的实现
union hero_align{
    int i;
    long l;
    long *lp;
    void *p;
    void (*fp)(void);
    float f;
    double d;
    long double ld;
};

真正的对齐则是参照nginx的写法:

size = (size + sizeof(union hero_align) - 1) & (~(sizeof(union hero_align) - 1));

其实笔者一开始还打算做一下类似linux kernel SLAB缓存中的随机着色机制，这样能够缓解false sharing问题，想想为了代码简单，还是算了。

为什么需要packet_buffer

packet_buffer是用来存储从socket fd中读取或写入的数据。设计packet_buffer的初衷就是要重用内存，因为一个连接反复的去获取写入数据总归是需要内存的，只在连接初始化的时候去分配一次内存显然是比反复分配再销毁效率高。

为什么不直接用内存池

上文中说到，销毁内存必须将池里面的整个数据重置。如果packet_buffer和其它的数据结构在同一内存池中分配，要重用它，那么在packet_buffer之前分配的数据就不能被清理。如下图所示:

这样显然违背了笔者设计内存池是为了释放内存方便的初衷。
另外，如果使用内存池，那么从sockfd中读取/写入的数据就可能从连续的变成一个一个mem_block分离的数据，这种不连续性对数据包的处理会特别麻烦。如下图所示:

当然了，这种非连续的分配方式，笔者曾经在阅读lwip协议时见过(帮某实时操作系统处理一个诡异的bug)，lwip在嵌入式这种内存稀缺的环境中使用这种方式从而尽量避免大内存的分配。所以笔者采取了在连接建立时刻一次性分配一个比较大的内存来处理单个请求的数据，如果这个内存也满足不了，则realloc(当然了realloc也有坑，需要仔细编写)。

packet_buffer结构

packet_buffer这种动态改变大小而且地址上连续的结构为处理包结构提供了便利。
由于realloc的时候，packet_buffer->buffer本身指向的地址可能会变，所以尽量避免直接操作内部buffer,非得使用内部buffer的时候，不能将其赋予一个局部变量,否则buffer变化，局部变量可能指向了之前废弃的buffer。

MySQL协议分包处理

MySQL协议基于tcp(当然也有unix域协议，这里只考虑tcp)。同时Hero采用的是非阻塞IO模式，读取包时，recv系统调用可能在包的任意比特位置上返回。这时候，就需要仔细的处理分包。

MySQL协议外层格式

MySQL协议是通过在帧头部加上length field的设计来处理分包问题。如下图所示:

Hero的处理

Hero对于length field采用状态机进行处理,这也是通用的手法。首先读取3byte+1byte的packet_length和sequenceId,然后再通过packet_length读取剩下的body长度。如下图所示:

连接池

Hero的连接池造的还比较粗糙，事实上就是一个数组，通过mutex锁来控制并发的put/get
连接管理部分尚未开发。

MySQL协议格式处理

相较于前面的各种轮子，MySQL协议本身反倒显得轻松许多，唯一复杂的地方在于握手阶段的加解密过程,但是MySQL是开源的，笔者直接将MySQL本身对于握手加解密的代码copy过来就行了。以下代码copy自MySQL-5.1.59(密码学太高深，这个轮子不造也罢):

// 摘自MySQL-5.1.59,用作password的加解密
void scramble(char *to, const char *message, const char *password) {

  SHA1_CONTEXT sha1_context;
  uint8 hash_stage1[SHA1_HASH_SIZE];
  uint8 hash_stage2[SHA1_HASH_SIZE];

  mysql_sha1_reset(&sha1_context);
  /* stage 1: hash password */
  mysql_sha1_input(&sha1_context, (uint8 *) password, (uint) strlen(password));
  mysql_sha1_result(&sha1_context, hash_stage1);
  /* stage 2: hash stage 1; note that hash_stage2 is stored in the database */
  mysql_sha1_reset(&sha1_context);
  mysql_sha1_input(&sha1_context, hash_stage1, SHA1_HASH_SIZE);
  mysql_sha1_result(&sha1_context, hash_stage2);
  /* create crypt string as sha1(message, hash_stage2) */;
  mysql_sha1_reset(&sha1_context);
  mysql_sha1_input(&sha1_context, (const uint8 *) message, SCRAMBLE_LENGTH);
  mysql_sha1_input(&sha1_context, hash_stage2, SHA1_HASH_SIZE);
  /* xor allows 'from' and 'to' overlap: lets take advantage of it */
  mysql_sha1_result(&sha1_context, (uint8 *) to);
  my_crypt(to, (const uchar *) to, hash_stage1, SCRAMBLE_LENGTH);
}

剩下的无非就是按格式解释包中的各个字段，然后再进行处理而已。典型代码段如下:

int handle_com_query(front_conn* front){
    char* sql = read_string(front->conn->read_buffer,front->conn->request_pool);
    int rs = server_parse_sql(sql);
    switch(rs & 0xff){
        case SHOW:
            return handle_show(front,sql,rs >> 8);
        case SELECT:
            return handle_select(front,sql,rs >> 8);    
        case KILL_QUERY:
				......
        default:
            return default_execute(front,sql,FALSE); 
    }
    return TRUE;
}

需要注意的是，hero在后端连接backend返回result_set结果集并拷贝到前端连接的write_buffer的时候，前端连接可能正在写入，也会操纵write_buffer。所以在这种情况下要通过Mutex去保护write_buffer(packet_buffer)的内部数据结构。

性能对比

下面到了令人激动的性能对比环节，笔者在一个4核8G的机器上用hero和另一个用java nio写的成熟DBProxy做对比。两者都是用show databases,这条sql并不会路由到后端的数据库，而是纯内存返回。这样笔者就能知道笔者自己造的reactor框架的性能如何，以下是对比情况:

用作对比的两个server的代码IO模型
hero(c):epoll 水平触发
proxy(java):java nio(内部也是epoll 水平触发)

benchMark:
服务器机器
4核8G
CPU主屏2399.996MHZ
cache size:4096KB

压测机器:
16核64G,jmeter

同样配置下,压测同一个简单的sql
hero(c):3.6Wtps/s
proxy(java):3.6Wtps/s
tps基本没有差别,因为瓶颈是在网络上

CPU消耗:
hero(c):10% cpu
proxy(java):15% cpu

内存消耗:
hero(c):0.2% * 8G
proxy(java):48.3% * 8G 

结论:
对于IO瓶颈的情况,用java和C分别处理简单的组帧/解帧逻辑，C语言带来的微小收益并不能让tps有显著改善。

Hero虽然在CPU和内存消耗上有优势，但是限于网络瓶颈，tps并没有明显提升-_-!
相比于造轮子时候付出的各种努力，投入产出比(至少在表面上)是远远不如用Netty这种非常成熟的框架的。如果是工作，那我会毫不犹豫的用后者。

总结

造轮子是个非常有意思的过程，在这个过程中能够强迫笔者去思考平时根本无需思考的地方。
造轮子的过程也是非常艰辛的，造出来的轮子也不一定比现有的轮子靠谱。但造轮子的成就感还是满满的^_^

github链接

https://github.com/alchemystar/hero

码云链接

https://gitee.com/alchemystar/hero

微信关注我们

原文链接：https://my.oschina.net/alchemystar/blog/3026279

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Android 整体设计及背后意义

阿里妹导读：现实工作中经常可以听到这样的说法：框架的升级带来协议性能的提升、编程模式的变革带来业务的飞跃...... 姑且不论这些表述是否有问题，实际上如果系统地看待事物整体，可能会有不一样的发现。以LINUX为例，尽管其内核大获成功，但如果不是遵循POSIX、并成为一个开源、精简的UNIX实现，很难想象其最终会有何种发展。因此，对事物进行全局和一定深入的探究有时会有更多启发。今天，阿里高级无线开发专家所为将结合自己多年的经验，为你深入阐述整个 Android 技术域及移动研发生态，期待与大家共同探讨。 1. Android设计的现实意义架构的工程意义在于：定义并解决一类问题，为需求到实现的平稳过渡提供保障。传统意义的Android架构（图1）已被人熟知，但不同角色的视角不同，例如认为Runtime和框架是其核心、或者将Android看做是一种特异性JVM平台、还有从嵌入式出发将其看做是Linux…… 实际上，Android是极少数几个用设计来解决自身发展问题的系统，其核心在于通过硬件抽象、组件化、接口层三种能力来为发展提供基础，并为诸多变数预留大量可操作、斡旋的空间。图1. A...

2019-03-22

757

开始使用Prometheus $ systemctl start prometheus $ netstat -lntp tcp6 0 0 :::9090 :::* LISTEN 19824/./prometheus 在浏览器访问：http://ip:9090/graph 。Prometheus会把自身作为一个项目进行自监控，查看收集到监控项：http://172.16.180.129:9090/metrics (如果是首次启动，需要等待30s左右的时间) 使用内置表达式查看数据地址：http://ip:9090/graph Prometheus内置监控项 prometheus_target_interval_length_seconds ，将该监控项直接输入console查询，可获取数据： ![image-20190322132500188](/Users/adai/Library/Application Support/typora-user-images/image-20190322132500188.png) 使用prometheus监控服务器上面用Prometheus本身的...

2019-03-22

1004

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。