搜索[分布式锁]结果-低调大师优秀个人博客

精选列表

搜索[分布式锁]，共10000篇文章

10小时大数据入门实战(三)-分布式文件系统HDFS

HDFS 环境搭建 HDFS 伪分布式环境搭建 CentOS 环境安装步骤 MacOS安装环境安装jdk jdk安装路径 /usr/libexec/java_home -V:列出所有版本的JAVA_HOME

2018-06-14

手把手教你搭建一个基于Java的分布式爬虫系统

在不用爬虫框架的情况下，我经过多方学习，尝试实现了一个分布式爬虫系统，并且可以将数据保存到不同地方，类似 MySQL、HBase 等。

2018-06-05

Java高并发、分布式框架，从无到有微服务架构设计

Ehcache 3.x：是一种广泛使用的开源Java分布式缓存。主要面向通用缓存,Java EE和轻量级容器。

2018-05-28

"分布式事务一致性" 看这一篇就够了

主要内容包括4部分：传统分布式事务不是微服务中一致性的最佳选择微服务架构中应满足数据最终一致性原则微服务架构实现最终一致性的三种模式对账是最后的终极防线。

2018-04-16

本来一篇文章就该搞定的。结果要分上下篇了。主要是最近颈椎很不舒服。同时还在做秒杀的需求也挺忙的。现在不能久坐。看代码的时间变少了。然后还买了两本治疗颈椎的书。在学着，不过感觉没啥用。突然心里好害怕。如果颈椎病越来越重。以后的路怎么走。现在上下班有跑步，然后坐一个小时就起来活动活动。然后在跟着同时们一起去打羽毛球吧。也快30的人了。现在发觉身体才是真的。其他都没什么意思。兄弟们也得注意~~ 废话不多说。下面介绍下netio。 netio在系统中主要是一个分包的作用。netio本事没有任何的业务处理。拿到包以后进行简单的处理。再根据请求的命令字发送到对应的业务处理进程去。一、多进程下的socket epoll以及“惊群现象” 2.1 多进程下是监听socket的方式 1）比如我们想创建三个进程同时处理一个端口下到来的请求。 2）父进程先创建socket。然后再listen。注意这个时候父进程frok。 2个进程出来。加上父进程就是3个进程 3）每个进程单独创建字节epoll_create和epoll_wait. 并把socket放到epoll_wait里以上是平台多进程下监听同一个端口的方式。我们下面探究下为什么要这么做 2.1.1、为什么要fork出来的子进程来继承父进程的socket。而不是多个进程绑定同一个端口？首先如果一个端口正在被使用，无论是TIME_WAIT、CLOSE_WAIT、还是ESTABLISHED状态。这个端口都不能被复用，这里面自然也是包括不能被用来LISTEN（监听）。所以在三个进程里分别listen和bind端口肯定会失败的 2.1.2 、为什么不能使用SO_REUSEADDR来是多个进程监听同一个端口？首先我们来看下SO_REUSEADDR的用途服务端重启的时候会进入到TIME_WAIT的状态。这个时候我们在bind的端口会失败的。但是我们不可能等TIME_WAIT状态过去在重启服务因为TIME_WAIT可能会在一分钟以上。这个时候我们设置为SO_REUSEADDR就是使得端口处在TIME_WAIT时候，可以复用监听。注意SO_REUSEADDR只是在TIME_WAIT 重启服务的时候有用。如果你是多个进程要bind同一个端口。且IP相同。那么即使你设置了SO_REUSEADDR也会失败因为SO_REUSEADDR允许在同一端口上启动同一服务器的多个实例，只要每个实例捆绑一个不同的本地IP地址即可。对于TCP，我们根本不可能启动捆绑相同IP地址和相同端口号的多个服务器。 2.1.3、TIME_WAIT的作用。为什么要TIME_WAIT的？因为TCP实现必须可靠地终止连接的两个方向(全双工关闭)，一方必须进入 TIME_WAIT 状态，因为可能面临重发最终ACK的情形。否则的会发送RST 2.1.4、多进行下实现监听同一个端口的原因因为创建子进程的时候，复制了一份socket资源给子进程。其实可以这么理解。其实只有父进程一个socket绑定了端口。其他子进程只是使用的是复制的socket资源 2.1.5、epoll放到fork之后会怎么样？ netio起5个进程 james 2356 1 0 08:22 pts/0 00:00:00 ./netio netio_config.xml james 2357 2356 0 08:22 pts/0 00:00:00 ./netio netio_config.xml james 2358 2356 0 08:22 pts/0 00:00:00 ./netio netio_config.xml james 2359 2356 0 08:22 pts/0 00:00:00 ./netio netio_config.xml james 2360 2356 0 08:22 pts/0 00:00:00 ./netio netio_config.xml 我们先做几个实验然后再具体分析 a)实验一正常请求。我们慢慢的按顺序发送十个请求。每个请求都是新的请求。我们看下netio处理的进程pid 发现每次都是2358 开始我以为会这五个请求来竞争来取socket接收到的请求化。那么每次处理的请求的子进程应该不一样才对。但是每次都是同一个请求 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2358 b)实验二我们先并发2个请求。看服务处理进程pid还是2358 after epoll_wait pid:2358 after epoll_wait pid:2358 这个时候我们客户端fork8个进程并发请求服务。发现2357和2358开始交替处理 after epoll_wait pid:2358 after epoll_wait pid:2358 after epoll_wait pid:2357 after epoll_wait pid:2358 after epoll_wait pid:2357 after epoll_wait pid:2358 after epoll_wait pid:2357 after epoll_wait pid:2358 c)实验三我们在epoll_wait后面.recv之前加上sleep（100000）然后发送一个请求。发现每个进程被唤醒以后但是因为sleep阻塞了。然后会接着唤醒别的进程来处理。每次唤醒都会被阻塞。一直到5个进程全部被阻塞 after epoll_wait pid:2358 after epoll_wait pid:2357 after epoll_wait pid:2359 after epoll_wait pid:2356 after epoll_wait pid:2360 d）实验四我们在epoll_wait后面recv 后面加上是sleep（100000）然后发送一个请求。发现有一个进程recv处理完以后。sleep住。其他进程并没有被唤醒。 1 after epoll_wait pid:2358 当我们并发两个请求的时候。发现唤醒了两个进程 after epoll_wait pid:2357 after epoll_wait pid:2359 四个实验已经做完现在我们来具体分析下原因 1）实验一中为什么每次只有一个进程来处理。首先我们三个进程都epoll_wait同一个fd。按理来说这个时候其实应该唤醒三个进程都来处理的。但是每次都只有一个进程来处理。如果是进程竞争处理的话。别的子进程应该也有机会来处理的。但是没有。这就是我们所谓的“惊群”现象。但是并没有发生。查了下资料发现。内核采用的不是竞争。而是分配策略。在有多个子进程epoll_wait 同一个fd的时候。会选择一个子进程来处理这个消息。并不会唤醒其他子进程。 2）实验二中并发增大的时候为什么会开始有多个子进程来处理。其实这里做的很有意思。内核轮流唤醒监听fd的子进程。如果子进程很快处理完。那么就一直让这个子进程来处理fd.但是如果子进程处理不完。速度没那么快。会接着唤醒别的子进程来处理这个fd. 即fd事件到达的时候。内核会先去看下A进程是否繁忙。如果不繁忙。则让这个A进程一直处理。如果发现A进程繁忙中。会去查看进程B是否繁忙。如果不繁忙则B处理后面的子进程以此类推所以我们看到并发请求增大的时候开始有多个子进程来处理了 3）实验三、5个进程为什么都被唤醒了？其实就是上面说的。被sleep住了。我们认为进程就是繁忙状态中。会依次通知其他进程来处理。 4）实验四为什么只有一个进程被唤醒处理我们在sleep放在recv之后。发现只有一个进程被唤醒。我们可以任务进程已经接受并处理了任务。所有不需要再通知其他进程了这里我们小结下： epoll放在fork之后这种方式不会引起惊群现象。会轮询选择其中一个子进程来处理。如果子进程来不及处理。则会通知另外一个子进程来处理。但是以上结论是做实验和查资料得来的。并没有看内核源码。所有如果有看过内核源码的同学。希望能指点下。 2.1.6、epoll放到fork之前会怎么样？把epoll放到fork 之前。当发送一个请求的时候发现也是只唤醒了一个进程来处理。这里其实跟epoll放到fork之后是一样的。但这里有个很蛋痛的地方。我们系统用到了unix域来做消息通知。当container处理完消息。会发送uinx域来通知neito来处理回包。但是回包的时候。不知道为什么 5个进程都被唤醒了来被处理。最后有三个进程被主动结束了。下面是我自己的理解 a) 首先是进程id为 6000 的netio处理的数据。当container回包实际数据只会通知 f000_6000的uinx域中如下图。有5个进程。就有5个uinx域 b) 但是由于多进程公用一个epoll。其他进程也被唤醒了。然后判断发现这个fd是uxin域的类型。然后就会去不停的读取自己对应的unix域文件。但是其实没有消息的。container只回到了 f000_6000 中所以其他进程一直recvfrom =-1 而且由于正在处理 f000_6000 的进程不够及时。这个消息没处理。epoll的特性是会一直通知进程来处理。所以其他进程会一直读自己的unix域。然后就一直recvfrom =-1 如下图。没贴全。除了进程6000其他进程打印了一堆这样的信息 c) 最后我们读进程6000从的uinx域中读到数据后。其他进程刚好这个时候拿到fd是被处理过的。这个时候再来处理这个fd就是未定义的。而我们对未定义的fd会直接stop进程。所以最后三个进程被主动关闭了这里我们小结一下因为没有看内核代码所有对这种情况只有靠实验和猜了。。。。。跪求大神指导 1、首先针对TCP端口内核应该是做了特殊处理。所以epoll在fork前还是后。如果处理及时。应该都是只有一个进程被唤醒。来处理。处理不及时会依次唤醒别的进程。并不会造成惊群现象(就是那种临界资源多个进程来抢这个包。最后只有一个进程能抢到包。但是做实验发现好像并不是竞争的关系) 2、但是针对unix域的fd。公用一个epoll没有特殊处理。就会造成惊群现象。并且多个进程都能拿到这个fd来处理。二、netio之定时器先看下图。netio定时器所处在的位置。由于epoll_wait了10毫秒。无论是否有请求触发。每隔10毫秒都会轮询一次。这样可以防止当container通知netio的时候。消息丢失而导致netio不能处理的情况定时器是一个比较重要的概念。每个服务进程都会有个定时器来处理定时任务。这里介绍下netio的定时器. 这里检查定时时间事件做两件事。一个是找出已经到达的时间事件。并执行子类的具体处理函数。第二个是给自动时间事件续期。 netio初始化的时候。会注册一个60秒的循环时间事件。即每60秒会执行一次时间事件。这个时间事件有以下几个动作。1)清除超时的socket 2）查询本地命令字列表 3）定时输出netio的统计信息 3.1 定时器的数据结构 netio的定时器数据结构是最小堆。即最近的定时任务是在最小堆上 a)申请了65个大小的二维数组 const uint32_t DEFAULT_QUEUE_LEN = 1 + 64; m_pNodeHeap = new CNode*[DEFAULT_QUEUE_LEN]; 这里为什么申请1+64.其实只有64个可用。其中的一个指针是用来辅助最小堆算法的。即m_pNodeHeap[0]=NULL; 是一直指向空的。最小堆的最小值是m_pNodeHeap【1】. b) CNode成员变量的意义 struct CNode { CNode(ITimerHandler *pTimerHandler = NULL, int iTimerID = 0) : m_pTimerHandler(pTimerHandler) , m_iTimerID(iTimerID) , m_dwCount(0) , bEnable(true) { } ITimerHandler *m_pTimerHandler; int m_iTimerID; CTimeValue m_tvExpired; // TimeValue for first check CTimeValue m_tvInterval; // Time check interval unsigned int m_dwCount; // Counter for auto re-schedule bool bEnable; }; m_pTimerHandler 主要是用来保存父类指针。当时间事件触发的时候。通过父类指针找到继承类。来处理具体的时间事件 m_tvExpired 记录过期时间。比如一个事件过期时间是10秒。那么m_tvExpired就是存的当前时间+10秒这个值。每次比较的时候。拿最小堆的的这个值跟当前时间比对。如果当前时间小于m_tvExpired说明没有任何时间时间被触发。如果当前时间大于这个值。则认为需要处理时间事件 m_dwCount 这个是用来设置自动过期时间的次数。比如我们有一个时间事件。我们希望它执行三次。每次的间隔以为1分钟。那么这个值设置为3. 当第一次到达时间时间的时候。我们发现这个值大于0.则对m_tvExpired赋值当前时间+1分钟重新进入最小堆。然后m_dwCount减一。下次依然是这样处理。直到m_dwCount这个值到0.我们就认为不需要再自动给这个时间设置定时任务。 bEnable 这个值是用来判断这个事件事件是否还有效。这里的做法很有意思。当一个时间事件执行完。或者不需要的时候。我们先是帮它设置为false.等下次check时间最堆的时候。如果发现这个时间事件是无效的。这个时候在delete m_tvInterval 这个是时间事件的间隔时间。比如我的时间事件是每10秒执行一次。则这个值就设置为10秒 m_iTimerID 这个是时间事件的唯一ID 这个值是自增的。每来一个新时间事件。m_iTimerID都会+1. 因为初始化的时候。这个值为1了。所以最开始的时间事件m_iTimerID的值为2 3.2 定时清理无效连接 a）首先如果有客户端connet进来。 netio会把这个connet的fd保存下来还有到来的时间。 m_mapTcpHandle[iTcpHandle]=(int)time(NULL); b ) 每次接受到数据都会更新这个时间 c ) netio有个配置文件。我们一般是设置为10秒。每次检查定时事件的时候。都会去检查m_mapTcpHandle。用当前时间跟m_mapTcpHandle里面保存的时间比较。当发现超过10秒的时候我们认为这个连接时无效的。然后会把这个fd关闭。并删除 d ) 所以如果要保持长连接的话。需要客户端不停的发送心跳包。来更新这个时间 3.3 定时统计netio的统计信息这有个很有意思的地方。在初始化的时候。我们已经注册了一个每60秒执行一次输出的netio状态的时间事件前面我们说了m_dwCount这个值用来控制自动时间事件的次数。我们每一分钟会输出netio的状态信息。这就是固定的时间事件。我们入参dwCount设置0.那么系统就认为你这个时间事件是需要无限循环的。就设置了一个最大值 (unsigned int )-1。这个值算出来是4294967295。我们以每分钟一次来计算。差不多要8000多年才能把这个m_dwCount减为0~~~~~ if (dwCount > 0) m_l_pNode->m_dwCount = dwCount; else m_l_pNode->m_dwCount = (unsigned int)-1; 当输出完状态信息后。会把netio的一些状态初始化为0.因为我们的状态输出是统计一分钟的状态。比如这一分钟的请求包个数。比率。丢包个数等。 3.4 定时请求命令字这里还是比较重要的是。比如我们新加了一个服务。如果不重启netio是不知道的。但是我们会没隔一分钟去请求所有的命令字。可以发现有心的服务加了进来。三、netio 之日志分析 4.1、netio_debug.log日志分析下面分析下简单netio的日志。这里就大概介绍了。不具体在介绍netio的值了。多看看就知道是什么意思的。还是请求道container. container发现参数校验不对直接把包丢回给netio的回包队列如下图 a)192.168.254.128:58638 当请求到来的时候会打印请求的IP和端口 b)Handle=00700008 但是这个socket不是原生的。是经过处理的。 c)ConnNum=1 当前有多个连接数 d)Timestamp=1460881087 请求到了的时间戳如下图 a) SendMsgqREQUESTSTART 这里是把内容丢到消息队列里 b)_NotifyNextREQUESTSTART 这里是通知container的uinx域。有消息丢到了你的消息队列里 c)OnRecvFromREQUESTSTART 这里是接收到了container发来的uinx域。告诉netio我已经处理完。丢到你的回包消息队列里去了。你赶紧去处理吧 d)OnEventFirerequest:0 从消息队列里拿到数据并开始处理。回给客户端包 e)OnCloseREQUESTSTART 客户端发送close socket信号。服务端接收后。关闭socket 4.2 netio_perform.log 日志分析以下都是一份钟的统计数据 PkgRecv 收到的包 PkgSent 发送出去的包 ErrPkgSent 错误的包。 PkgPushFail 这个暂时没用到 PkgSendFail 这个是netio 包发送的时候。发不出去的个数 BytesRecv 收到的字节数 BytesSent 发送出去的字节数 MaxConn 最大连接数。这个值不是一份内的最大值。是从开始到输出统计是。最高的同时连接数据 TcpConnTimeout 因为超时。netio自动关闭的TCP连接。 Cmd[0x20630001] 是netio从回包队列中拿到。命令字 Count[15] 该命令字一分钟内总共拿到的回包总数 AverageTime[0] 每个包的平均处理时间。这里是拿这15个包从netio-container-netio这期间的总时间除以 15得到的平均时间单位是毫秒 MaxTime[1] 这15个包中耗时最长的一个包。所耗时间 AverageRspLen[89] 平均每个包回给客户端的字节数 MaxRspLen[89] 最大的一个回包字节数 Ratio[100] 这里先会拿到一个一分钟内netio接受包的总个数(这里指客户端来的请求包) 。然后用用0x20630001命令字的个数来除以总包数再乘以100。得到0x20630001在这一分钟内。所占处理包的比重。后面接着的一串是命令字0x20630001的分布在不同相应时间的个数最后一天是正对一分钟所有命令字包的统计最后： 1）对大型系统。统计日志很重要。可以时事了解系统的状态 2）一定要处理好多进程的关系 3）最后一定要保护好身体。身体才是根本啊~~~

2018-03-07

大型分布式C++框架《三：序列化与反序列化》

一、前言个人感觉序列化简单来说就是按一定规则组包。反序列化就是按组包时的规则来接包。正常来说。序列化不会很难。不会很复杂。因为过于复杂的序列化协议会导致较长的解析时间，这可能会使得序列化和反序列化阶段成为整个系统的瓶颈。就像压缩文件、解压文件，会占用大量cpu时间。所以正常的序列化会在时间和空间上考虑。个人感觉对于电商业务时间应该是相对重要些。毕竟用户没有那么多时间等你解析。我们是用thrift来序列化的。一份thrift文件生成2份。一份是c++生成的用来编写服务接口。一份是php生成的。所有请求都会先落到前端机器。然后前端机器用php调用服务端函数接口。返回处理结果。这其实是远程调用rpc。二、分配序列化空间的大小说序列化之前先说下平台给序列化分配的buf的空间大小 1、每个协程会分配大概固定包头（56个字节）+特殊buf（200个字节）的空间来保存包头。所以首先如果收到的包特殊buf（就是放sessionkey和uid等信息）大于200个字节。会报错不处理。但是并不会给netio 返回一个错误包消息。所以客户端会一直等到客户端设置的超时时间 2、每个container会分配3M的空间来处理数据。所以去掉包头和特殊buf.剩下的就是可以用来序列化的空间 3*1024*1024-固定包头-特殊buf。所以最少会有3*1024*1024-56-200的空间这里其实可以看到协程的好处。这个3M的空间。对于每个协程来说是共享的。因为我们是协程的方式，其实是一种顺序流程,没有协程会跟你竞争使用这个buf的资源。因为可以自己手动控制协程的切换。如果是多线程的话。可能就要对这个buf加锁。竞争这一个全局资源来处理数据。这也是多线程编程被诟病的一个地方，需要加锁。三、序列化步骤 1、我们先看下请求。 oCntlInfo.setOperatorUin(10458); oCntlInfo.setOperatorKey("abcde"); oCntlInfo.setRouteKey(1234); std::string source = "aaaaa"; std::string inReserve; std::string errmsg; std::string outStr; std::string machineKey; for(int i =0;i<500*1024;i++) { machineKey.append("a"); } AoActionInfo oActionInfo; oActionInfo.SetDisShopId(1111); oActionInfo.SetDistributorId(2222); uint32_t dwResult = Stub4App.AddActionSupplier( oCntlInfo, machineKey, source, 1, 1, oActionInfo, inReserve, errmsg, outStr); if(dwResult == 0) { std::cout << "Invoke OK!" << std::endl; std::cout << "Invoke OK!" << std::endl; } 客户端直接调用函数接口。到服务端请求结果最后需要序列化的东西如下是类_Cao_action_AddActionSupplier_Req 函数的入参都是我们需要序列化的内容。注意这里是rpc调用的一个关键点。 2、序列化开始 a) 先看下我们的thritf 如果下图。发现我们的函数入参也是打上了tag标志的。作用跟我们在结构体中打tag标志是一样的。为了标识一个字段的含义。序列化的时候把这些tag序列化进去。然后反序列化的时候靠这些tag来解析 b ) 先把图贴出来。按着图来讲更清晰些 c) 首先我们会创建一个CByteStream的类来。序列化内容。在CByteStream的构造函数会自动写入一个字节的序列化包头。值为1 CByteStream(char*pStreamBuf=NULL,uint32_tnBufLen=0,boolbStore=true,boolbRealWrite=true); pStreamBuf 是序列化buf指针 pStreamBuf 是序列化的长度 bStore true表示是否需要包数据存储下来。 false表示不需要把数据存下来 bRealWrite 表示是否支持读写buf d) 接着就开始写类_Cao_action_AddActionSupplier_Req的成员变量。其实就是函数入参。写的时候是先协tag就是下图中的fid。其实就是在thrift中已经写好的函数入参的tag值。具体写的过程我们先看简单基本类型。比如strMachineKey 1）先写tag。 strMachineKey 的tag为1. 程序里规定tag占两个字节。所以函数入参可以是0xffff个。 2 ) 接着会写4个固定的字节。用来存储后面紧跟着数据的值。这里strMachineKey的长度是512000. 3 ) 写内容。把strMachineKey的内容写入紧跟着的buf 针对整形和长整形就不说了大同小异 e) 接着我们关注下是怎么写结构体oActionInfo的。 1）先写tag。 oActionInfo 的tag为5. 程序里规定tag占两个字节。 2 ) 接着针对结构体这里会写4个固定的字节用来存结构体序列化长度。因为开始不知道所以值为0。 3 ) 接着写字段 DistributorId。它在oActionInfo结构体中的tag值为6.类型为int64. 所以先写tag=6占两个字节，接着分配4个字节存长度。最后分配8个字节存内容 4）跟着写DisShopId字段。就不细说了 5）最后写了2个字节包尾 6）最后回写结构体的长度这里注意下写结构体时候的写法。不注意的话会看错。 1）这里先拿到开始写结构体的buf指针。注意这里是用的int32_t。占四个字节。跟前面保持一直。这里用来的存后面总序列虚化结构体提的总长度。 2）由于刚开始的时候并不知道后面的结构体会序列化多少个字节。所以这里先写4个字节。同时把这便宜的4个字节的内存值设置为0 bs<<0; （这里其实建议写成 bs<<int32_t（0）会好一点。开起来一致）这里开始没注意。以为写4个字节值为0的结构体的头。其实这里是放结构体长度的 3）最后第5步。重新赋值结构体的长度 1）int32_t* pLen = (int32_t*)bs.getRawBufCur(); 2）bs << 0; 3）int32_t iLen=bs.getWrittenLength(); 4）Serialize_w(bs); 5）*pLen = bs.getWrittenLength() - iLen; f）最后对整个_Cao_action_AddActionSupplier_Req写了两个字节的包尾 g) 我么可以看到oActionInfo其实有一堆的字段。但是我们在请求的时候只写了两个字段。所有在序列化的时候也只序列化了两个字段其实我们可以看到我们的这种序列化,很整齐。很规则。比较紧凑。但是并不节省空间。这个里面有很多数据可以压缩的。但是压缩带来一个问题就是解压的时候很消耗cpu的。跟我的业务场景不服和。也没必要。四、序列化解析其实知道了数据是怎么写入的解析起来就很容易了。其实这种序列化就是两边约定规则。知道规则以后就可以解析了解析的具体步骤就不详细说了。这里说下解析的时候几个特殊的地方 1、因为tag占2个字节。所以函数入参不能大于0xffff. 一个结构体的字段个数不能大于0xffff 2、假如前端传入的tag在解析端找不到。解析端会偏移处理下一个tag。所以这是为什么我们可以删除字段的原因。比如前端传入的结构如下 struct A{ 1:int aa 2:int bb } 但是服务端后台编译后删除了一个字段 struct A{ 1:int aa } a)如果前端只填了字段aa。那么解析起来没有任何问题.因为不会把字段bb的任何信息序列化进去。 b)假如前端填了 aa 和 bb字段。那么服务端在解析的时候。拿到tag2。发现找不到对应的数据。那么它会偏移4个字节取tag2对应字段内容所占的字节数。比如这里是4. 接着它发现是4.就偏移4个字节。不处理字段值内容。直接取下一个tag进行处理这也就是我们为什么能删除字段的原因。这样看来我们的函数入参其实也是可以删除的 3、我们服务端新增字段重新编译。前端没有对应的tag。根本不会序列化进来。这也是我们可以增加字段的原因。 4、解析的时候如果发现tag为0.则会是认为解析结束。所以我们的tag是不能为0的 5、这样我们也就能为服务端函数增加入参的。同一个函数比如前端的入参是4个。服务端可以增加N个. 但是注意不能占用函数已经用的tag。否则会有问题。而且为了保证函数的统一性。最好别这么做。 6、到这里已经很清晰了。最后再说一次不能改tag对应的类型。五、话外我们的这一套就是远程调用rpc服务。通过我们的序列化。其实就能了解所谓的RPC服务是什么样的。说白了，远程调用就是将对象名、函数名、参数等传递给远程服务器，服务器将处理结果返回给客户端。为了能解析出这些信息。在入参的时候做上标识(这里是打tag). 谷歌的protobuf也用过。跟thrift其实差不多但是序列化和反序列的话的具体实现是有些不同的。谷歌的protobuf更节省空间以前具体看过序列化的源码。觉得序列化反序列化以及rpc很神秘。现在看了源码才发现确实写的确实好，但是没那么神秘里。其实就是按一定规则组包。所以还是要多看源码啊。我们用的thrift就是 facebook的thrift。但是改了些东西。大体是一样的。

2018-03-07

一张图看懂阿里企业级分布式应用服务EDAS

近日，阿里中间件（Aliware）的企业级分布式应用服务EDAS宣布再次升级，全面支持Spring Cloud应用。

2018-02-06

分布式监控系统Zabbix3.2添加自动发现磁盘IO并注册监控

zabbix并没有给我们提供这么一个模板来完成在Linux中磁盘IO的监控，所以我们需要自己来创建一个，在此还是在Linux OS中添加。由于一台服务器中磁盘众多，如果只一两台可以手动添加，但服务集群达到几十那就非常麻烦，因此需要利用自动发现这个功能，自动发现后自动添加对服务器磁盘的监控，而且添加磁盘后也会自动添加到监控，实现自动化运维的效果，所以在这里也演示一次自动发现的配置。打开Linux模板，添加自动发现规则上面的key值是需要在 zabbix_agent.conf 中配置的 UserParameter=disk.discovery,/usr/local/share/zabbix/alertscripts/disk_discovery.sh 自动发面的规则用shell代码实现，返回一段磁盘的json list 代码 disk_discovery.sh #!/bin/bash diskarray=(`cat /proc/diskstats |grep -E "\bsd[abcdefg]\b|\bxvd[abcdefg]\b"|grep -i "\b$1\b"|awk '{print $3}'|sort|uniq 2>/dev/null`) length=${#diskarray[@]} printf "{\n" printf '\t'"\"data\":[" for ((i=0;i<$length;i++)) do printf '\n\t\t{' printf "\"{#DISK_NAME}\":\"${diskarray[$i]}\"}" if [ $i -lt $[$length-1] ];then printf ',' fi done printf "\n\t]\n" printf "}\n" 到此自动发现磁盘已完，有点简单吧。添加监控项按照上面的内容添加第一个写扇区的次数监控，接下来按下面的内容添加共6个内容。内容介绍名称: {#DISK_NAME}磁盘读的次数键值: disk.status[{#DISK_NAME},read.ops] 单位: ops/second 储存值:差量(每秒速率) 名称: {#DISK_NAME}磁盘写的次数键值: disk.status[{#DISK_NAME},write.ops] 单位: ops/second 储存值:差量(每秒速率) 名称: {#DISK_NAME}磁盘读的毫秒数键值: disk.status[{#DISK_NAME},read.ms] 单位: ms 储存值:差量(每秒速率) 名称: {#DISK_NAME}磁盘写的毫秒数键值: disk.status[{#DISK_NAME},write.ms] 单位: ms 储存值:差量(每秒速率) 名称: {#DISK_NAME}读扇区的次数键值: disk.status[{#DISK_NAME},read.sectors] 单位: B/sec 使用自定义倍数: 512 储存值:差量(每秒速率) 名称: {#DISK_NAME}写扇区的次数键值: disk.status[{#DISK_NAME},write.sectors] 单位: B/sec 使用自定义倍数: 512 储存值:差量(每秒速率) 然后如果得到这些值是需要shell脚本的： disk_status.sh #/bin/sh device=$1 DISK=$2 case $DISK in read.ops) /bin/cat /proc/diskstats | grep "\b$device\b" | head -1 | awk '{print $4}' #//磁盘读的次数 ;; read.ms) /bin/cat /proc/diskstats | grep "\b$device\b" | head -1 | awk '{print $7}' #//磁盘读的毫秒数 ;; write.ops) /bin/cat /proc/diskstats | grep "\b$device\b" | head -1 | awk '{print $8}' #//磁盘写的次数 ;; write.ms) /bin/cat /proc/diskstats | grep "\b$device\b" | head -1 | awk '{print $11}' #//磁盘写的毫秒数 ;; io.active) /bin/cat /proc/diskstats | grep "\b$device\b" | head -1 | awk '{print $12}' #//I/O的当前进度， ;; read.sectors) /bin/cat /proc/diskstats | grep "\b$device\b" | head -1 | awk '{print $6}' #//读扇区的次数（一个扇区的等于512B） ;; write.sectors) /bin/cat /proc/diskstats | grep "\b$device\b" | head -1 | awk '{print $10}' #//写扇区的次数（一个扇区的等于512B） ;; io.ms) /bin/cat /proc/diskstats | grep "\b$device\b" | head -1 | awk '{print $13}' #//花费在IO操作上的毫秒数 ;; esac 在客户端中的zabbix_agent.conf 中一起配置： UserParameter=disk.discovery,/usr/local/share/zabbix/alertscripts/disk_discovery.sh UserParameter=disk.status[*],/usr/local/share/zabbix/alertscripts/disk_status.sh $1 $2 要注意的是以上两个文件需要给x 执行权限。添加图形显示在图形原型中添加，注意名称中要带哪个磁盘的动态名称，不然会出现Disk IO 已注册的错误信息。 zabbix3 Cannot create graph: graph with the same name "Disk IO" already exists 在监控项中选择上面添加的6个监控项。测试效果重启客户端的zabbix_agentd，然后在zabbix服务端对服务发现和写扇区次数进行测试。代码如下，有显示内容说明已经部署成功。查看图形化，选择监控主机，图形中查看，若还没有项，需要等个几分钟再看。问题：网上有网友用的是python来实现自动发现功能，但测试发现老是报错： python import: command not found 可能是依赖包有问题，考虑到集群服务器的python环境问题，因此就不考虑用python的实现。以上的内容也是基于之前的文章中的内容作为介绍基础，若有其他问题可先看之前的文章中介绍的基础环境。

2018-01-09

[Erlang 0060] Joe Armstrong 论文《面向软件错误构建可靠的分布式系统》笔记

周末读了两篇论文"On Designing and Deploying Internet-Scale Services"和Joe Armstrong的论文"面对软件错误构建可靠的分布式系统",这两篇论文实战内容相当多

2017-12-02

分布式协调服务中间件ZooKeeper 入门（1）-ZK的介绍与特性

一、Zookeeper简介 Zookeeper是一个服务，是一个分布式协调技术，他提供高性能，分布式的协调服务。

2017-11-30

分布式消息队列中间件系列研究之阿堂教程(高级篇)

利用周末休息时间,阿堂这里推出了最后一篇《分布式消息队列中间件系列研究之阿堂教程(高级篇)》，这里阿堂是分享的关于zookeeper集群+metaq(broker的集群)搭建篇。

2017-11-26

hadoop分布式集群部署以及过程中遇到的一些坑

在hadoop学习过程中，首先第一步是部署伪分布以及分布式集群。

2017-11-11

11月1日云栖精选夜读：HangFire分布式后端作业调度框架服务

HangFire 分布式后端作业调度框架服务，我们只需要关心业务逻辑代码，而不用关心调度机制，支持.net framework和.net core 热点热议 HangFire分布式后端作业调度框架服务

2017-10-31

数据库的争霸赛：从SQL到NewSQL分布式谁是王者？

近几年随着分布式数据库的崛起，Sharding也逐渐得到越来越多的关注和尝试。

2017-10-24

以电商网站为例，谈大型分布式架构设计与优化

拆分后的架构图：参考部署方案2 如上图每个应用单独部署核心系统和非核心系统组合部署 2应用集群部署（分布式，集群，负载均衡） 分布式部署：将业务拆分后的应用单独部署，应用直接通过RPC进行远程通信

2017-10-18

保证分布式系统数据一致性的6种方案

规避分布式事务——业务整合业务整合方案主要采用将接口整合到本地执行的方法。

2017-10-17

Docker生态系统系列之三：服务发现和分布式配置存储

全局分布式服务发现系统的一个主要优势是它可以存储任何类型的组件运行时所需的配置信息。这就意味着可以从容器内将更多的配置信息抽取出去，并放入更大的运行环境中。

2017-09-12

分布式DB数据倾斜的原因和解法 - 阿里云HybridDB for PostgreSQL最佳实践

标签 PostgreSQL , Greenplum , query倾斜 , 存储倾斜 , OOM , disk full , 短板 , 数据分布背景对于分布式数据库来说，QUERY的运行效率取决于最慢的那个节点

2017-08-25

【对标TensorFlow】阿里公开内部超大规模分布式机器学习平台

近年来，随着“大”数据及“大”模型的出现，学术界和工业界对分布式机器学习算法引起了广泛关注。针对这一刚需，阿里集团和蚂蚁金服设计了自己的分布式平台——鲲鹏。

2017-08-15

分布式存储大行其道浪潮AS13000何以“木秀于林”？

今天，小编就来为大家扒一扒，分布式存储技术是如何发展起来的?作为广电总局、华强文化等单位都青睐的海量存储产品AS13000，在分布式存储技术上又有何优胜之处，在非线编、影像处理等应用上做了哪些优化?

2017-08-08

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

精选列表

10小时大数据入门实战(三)-分布式文件系统HDFS

手把手教你搭建一个基于Java的分布式爬虫系统

Java高并发、分布式框架，从无到有微服务架构设计

"分布式事务一致性" 看这一篇就够了

大型分布式C++框架《四：netio之请求包中转站上》

大型分布式C++框架《三：序列化与反序列化》

一张图看懂阿里企业级分布式应用服务EDAS

分布式监控系统Zabbix3.2添加自动发现磁盘IO并注册监控

[Erlang 0060] Joe Armstrong 论文《面向软件错误构建可靠的分布式系统》笔记

分布式协调服务中间件ZooKeeper 入门（1）-ZK的介绍与特性

分布式消息队列中间件系列研究之阿堂教程(高级篇)

hadoop分布式集群部署以及过程中遇到的一些坑

11月1日云栖精选夜读：HangFire分布式后端作业调度框架服务

数据库的争霸赛：从SQL到NewSQL分布式谁是王者？

以电商网站为例，谈大型分布式架构设计与优化

保证分布式系统数据一致性的6种方案

Docker生态系统系列之三：服务发现和分布式配置存储

分布式DB数据倾斜的原因和解法 - 阿里云HybridDB for PostgreSQL最佳实践

【对标TensorFlow】阿里公开内部超大规模分布式机器学习平台

分布式存储大行其道浪潮AS13000何以“木秀于林”？

资源下载

腾讯云软件源

Nacos

Spring

Rocky Linux

欢迎您来访！

精选列表

10小时大数据入门实战(三)-分布式文件系统HDFS

手把手教你搭建一个基于Java的分布式爬虫系统

Java高并发、分布式框架，从无到有微服务架构设计

"分布式事务一致性" 看这一篇就够了

大型分布式C++框架《四：netio之请求包中转站 上》

大型分布式C++框架《三：序列化与反序列化》

一张图看懂阿里企业级分布式应用服务EDAS

分布式监控系统Zabbix3.2添加自动发现磁盘IO并注册监控

[Erlang 0060] Joe Armstrong 论文《面向软件错误构建可靠的分布式系统》笔记

分布式协调服务中间件ZooKeeper 入门（1）-ZK的介绍与特性

分布式消息队列中间件系列研究之阿堂教程(高级篇)

hadoop分布式集群部署以及过程中遇到的一些坑

11月1日云栖精选夜读：HangFire分布式后端作业调度框架服务

数据库的争霸赛：从SQL到NewSQL分布式谁是王者？

以电商网站为例，谈大型分布式架构设计与优化

保证分布式系统数据一致性的6种方案

Docker生态系统系列之三：服务发现和分布式配置存储

分布式DB数据倾斜的原因和解法 - 阿里云HybridDB for PostgreSQL最佳实践

【对标TensorFlow】阿里公开内部超大规模分布式机器学习平台

分布式存储大行其道 浪潮AS13000何以“木秀于林”？

资源下载

腾讯云软件源

Nacos

Spring

Rocky Linux

欢迎您来访！

大型分布式C++框架《四：netio之请求包中转站上》

分布式存储大行其道浪潮AS13000何以“木秀于林”？