从RocketMQ的设计看分布式套路-低调大师

从RocketMQ的设计看分布式套路

2020-06-07 554

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

简述

消息中间件作为分布式系统的重要成员，各大公司及开源均有许多解决方案。目前主流的开源解决方案包括RabbitMQ、RocketMQ、Kafka、ActiveMQ等。消息这个东西说简单也简单，说难也难。简单之处在于好用方便，接入简单使用简单，异步操作能够解耦系统间的依赖，同时失败后也能够追溯重试。难的地方在于，设计一套可以支撑业务的消息机制，并提供高可用架构，解决消息存储、消息重试、消息队列的负载均衡等一系列问题。然而难也不代表没有方法或者“套路”，熟悉一下原理与实现，多看几个框架的源码后多总结势必能找出一些共性。

消息框架大同小异，熟练掌握其原理、工作机制是必要的。就拿用的比较多的RocketMQ为引，来说说消息引擎的设计与实现。阿里的消息引擎经过了从Notify到Napoli、再到MetaQ三代的发展，现在已经非常成熟，在不同部门的代码中现在没准都还可以从代码里看到这一系列演进过程。当前的Apache RocketMQ 就是阿里将MetaQ项目捐赠给了Apache基金会，而内部还是沿用MetaQ的名称。

首先诠释几个消息相关的基本概念

每个消息队列都必须建立一个Topic。
消息可以分组，每个消息队列都至少需要一个生产者Producer和一个消费者Consumer。生产者生产发送消息，消费者接收消费消息。
每个消费者和生产者都会分配一个ID。

RocketMQ 系统架构

首先来看看RocketMQ的架构，如上图所示，简要描述一下几种角色及作用。

NameServer

NameServer是消息Topic的注册中心，用于发现和管理消息生产者、消费者、维护路由关系。

Broker

消息存储与转发的中转站，使用队列机制管理数据存储。Broker中会存储多份消息数据进行容错，以Master/Slave的架构保证系统的高可用，Broker中可以部署单个或多个Master。单个Master的场景，Master挂掉后，Producer新产生的消息无法被消费，但已经发送到Broker的消息，由于Slave节点的存在，还能继续被Consumer所消费；如果部署多个Master则系统能能正常运转。
另外，Broker中的Master和Slave不是像Zookeeper集群中用选举机制进行确定，而是固定的配置，这也是在高可用场景需要部署多个Master的原因。生产者将消息发送到Broker中后，Broker会将消息写到本地的CommitLog文件中，保存消息。

Producer

生产者会和NameServer集群中某一节点建立长链接，定时从NamerServeri获取Topic路由信息，并且和Broker建立心跳。

Consumer

消费者需要给生产者一个明确的消费成功的回应，MetaQ才会认为消费成功，否则失败。失败后，RocketMQ会将消息重新发回Broker，在指定的延迟时间内进行重试，当重试达到一定的次数后（默认16次），MetaQ则认为此消息不能被消费，消息会被投递到死信队列。

这个架构看其实是否很熟悉？好像接触过的一些分布式系统的架构和这个长的都比较像是吧，甚至只要里面框图的角色稍微换换就能变成另外一个框架的介绍，比如Dubbo/Redis...。

并且在RocketMQ架构设计中，要解决的问题与其他分布式框架也可以触类旁通。Master/Slave机制，天然的读写分离方式都是分布式高可用系统的典型解决方案。

负载均衡

负载均衡是消息框架需要解决的又一个重要问题。当系统中生产者生产了大量消息，而消费者有多个或多台机器时，就需要平衡负载，让消息均分地被消费者进行消费。目前RocketMQ中使用了多种负载均衡算法。主要有以下几种，静态配置由于比较简单，就是直接为消费者指定需要消费的队列所以直接忽略。

求平均数法
环形队列法
一致Hash算法
Machine Room算法
静态配置

来看一下源码，RocketMQ内部对以上负载均衡算法均有实现，并定义了一个接口 AllocateMessageQueueStrategy，采用了策略模式，每种负载均衡算法都依靠实现这个接口实现。在运行态时，会获取这个接口的实例，从而动态判断到底采用的是哪种负载均衡算法。

1. 求平均数法

顾名思义，就是根据消息队列的数量和消费者的数量，求出单个消费者上应该负担的平均消费队列数，然后根据消费者的ID，按照取模的方式将消息队列分配到指定的consumer上。具体代码可以去Github上找，截取核心算法代码如下， mqAll就是消息队列的结构，是一个MessageQueue的List，cidAll是消费者ID的列表，也是一个List。考虑mqAll和cidAll固定时以及变化时，当前消费者节点会从队列中获取到哪个队列中的消息，比如当 averageSize 大于1时，这时每个消费者上的消息队列就不止一个，而分配在每个消费者的上的队列的ID是连续的。

@Override
public List<MessageQueue> allocate(String consumerGroup, String currentCID, List<MessageQueue> mqAll,
    List<String> cidAll) {
    if (currentCID == null || currentCID.length() < 1) {
        throw new IllegalArgumentException("currentCID is empty");
    }
    if (mqAll == null || mqAll.isEmpty()) {
        throw new IllegalArgumentException("mqAll is null or mqAll empty");
    }
    if (cidAll == null || cidAll.isEmpty()) {
        throw new IllegalArgumentException("cidAll is null or cidAll empty");
    }

    List<MessageQueue> result = new ArrayList<MessageQueue>();
    if (!cidAll.contains(currentCID)) {
        log.info("[BUG] ConsumerGroup: {} The consumerId: {} not in cidAll: {}",
            consumerGroup,
            currentCID,
            cidAll);
        return result;
    }

    int index = cidAll.indexOf(currentCID);
    int mod = mqAll.size() % cidAll.size();
    int averageSize =
        mqAll.size() <= cidAll.size() ? 1 : (mod > 0 && index < mod ? mqAll.size() / cidAll.size()
            + 1 : mqAll.size() / cidAll.size());
    int startIndex = (mod > 0 && index < mod) ? index * averageSize : index * averageSize + mod;
    int range = Math.min(averageSize, mqAll.size() - startIndex);
    for (int i = 0; i < range; i++) {
        result.add(mqAll.get((startIndex + i) % mqAll.size()));
    }
    return result;
}

2. 环形平均法

这种算法更为简单。首先获取当前消费者在整个列表中的下标index，直接用求余方法得到当前消费者应该处理的消息队列。注意mqAll的size和cidAll的size可以是任意的。

当ciAll.size() == mqAll.size() 时，该算法就是类似hashtable的求余分桶。
当ciAll.size() > mqAll.size()时，那么多出的消费者上并不能获取到消费的队列，只有部分消费者能够获取到消息队列并执行，相当于在消费者资源充足的情况下，由于队列数少，所以使用其中一部分消费者就能满足需求，不用额外的开销。
当ciAll.size() < mqAll.size()时，这样每个消费者上需要负载的队列数就超过了1个，并且区别于直接求平均的方式，分配在每个消费者上的消费队列不是连续的，而是有一定步长的间隔。

实现代码

@Override
public List<MessageQueue> allocate(String consumerGroup, String currentCID, List<MessageQueue> mqAll,
    List<String> cidAll) {
    if (currentCID == null || currentCID.length() < 1) {
        throw new IllegalArgumentException("currentCID is empty");
    }
    if (mqAll == null || mqAll.isEmpty()) {
        throw new IllegalArgumentException("mqAll is null or mqAll empty");
    }
    if (cidAll == null || cidAll.isEmpty()) {
        throw new IllegalArgumentException("cidAll is null or cidAll empty");
    }

    List<MessageQueue> result = new ArrayList<MessageQueue>();
    if (!cidAll.contains(currentCID)) {
        log.info("[BUG] ConsumerGroup: {} The consumerId: {} not in cidAll: {}",
            consumerGroup,
            currentCID,
            cidAll);
        return result;
    }

    int index = cidAll.indexOf(currentCID);
    for (int i = index; i < mqAll.size(); i++) {
        if (i % cidAll.size() == index) {
            result.add(mqAll.get(i));
        }
    }
    return result;
}

3. 一致Hash算法

循环所有需要消费的队列，根据队列toString后的hash值计算出处理当前队列的最近节点并分配给该节点。routeNode中方法稍微复杂一些，有时间建议细看，这里就只说功能。

实现代码

@Override
public List<MessageQueue> allocate(String consumerGroup, String currentCID, List<MessageQueue> mqAll,
    List<String> cidAll) {

    if (currentCID == null || currentCID.length() < 1) {
        throw new IllegalArgumentException("currentCID is empty");
    }
    if (mqAll == null || mqAll.isEmpty()) {
        throw new IllegalArgumentException("mqAll is null or mqAll empty");
    }
    if (cidAll == null || cidAll.isEmpty()) {
        throw new IllegalArgumentException("cidAll is null or cidAll empty");
    }

    List<MessageQueue> result = new ArrayList<MessageQueue>();
    if (!cidAll.contains(currentCID)) {
        log.info("[BUG] ConsumerGroup: {} The consumerId: {} not in cidAll: {}",
            consumerGroup,
            currentCID,
            cidAll);
        return result;
    }

    Collection<ClientNode> cidNodes = new ArrayList<ClientNode>();
    for (String cid : cidAll) {
        cidNodes.add(new ClientNode(cid));
    }

    final ConsistentHashRouter<ClientNode> router; //for building hash ring
    if (customHashFunction != null) {
        router = new ConsistentHashRouter<ClientNode>(cidNodes, virtualNodeCnt, customHashFunction);
    } else {
        router = new ConsistentHashRouter<ClientNode>(cidNodes, virtualNodeCnt);
    }

    List<MessageQueue> results = new ArrayList<MessageQueue>();
    for (MessageQueue mq : mqAll) {
        ClientNode clientNode = router.routeNode(mq.toString());
        if (clientNode != null && currentCID.equals(clientNode.getKey())) {
            results.add(mq);
        }
    }

    return results;
}

4. Machine Room算法

基于机房的Hash算法。这个命名看起来很诈唬，其实和上面的普通求余算法是一样的，只不过多了个配置和过滤，为了把这个说清楚就把源码贴全一点。可以看到在这个算法的实现类中多了一个成员 consumeridcs，这个就是consumer id的一个集合，按照一定的约定，预先给broker命名，例如us@metaq4，然后给不同集群配置不同的consumeridcs，从而实现不同机房处理不同消息队列的能力。

实现代码

@Override
public List<MessageQueue> allocate(String consumerGroup, String currentCID, List<MessageQueue> mqAll,
    List<String> cidAll) {
    List<MessageQueue> result = new ArrayList<MessageQueue>();
    int currentIndex = cidAll.indexOf(currentCID);
    if (currentIndex < 0) {
        return result;
    }
    List<MessageQueue> premqAll = new ArrayList<MessageQueue>();
    for (MessageQueue mq : mqAll) {
        String[] temp = mq.getBrokerName().split("@");
        if (temp.length == 2 && consumeridcs.contains(temp[0])) {
            premqAll.add(mq);
        }
    }

    int mod = premqAll.size() / cidAll.size();
    int rem = premqAll.size() % cidAll.size();
    int startIndex = mod * currentIndex;
    int endIndex = startIndex + mod;
    for (int i = startIndex; i < endIndex; i++) {
        result.add(mqAll.get(i));
    }
    if (rem > currentIndex) {
        result.add(premqAll.get(currentIndex + mod * cidAll.size()));
    }
    return result;
}

应用实例

由于近些年阿里海外业务的扩展和投入，RocketMQ等中间件对常见的海外业务场景的支持也更加健全。典型的场景包括跨单元消费以及全球消息路由。

跨单元消费的应用是比较好实现的，就是在consumer中额外增加一个配置，指定接收消息的来源单元，RocketMQ内部会完成客户端从指定单元拉取消息的工作。而全球消息路由则是需要一些公共资源，消息的发送方只能将消息发送到一个指定单元/机房，然后将消息路由到另外指定的单元，consumer部署在指定单元。区别在于一个配置在客户端，一个配置在服务端。

如上图所示就是一个需要跨单元消费的场景，Producer在多个站点，均能够发送消息，但由于机房、资源及政策限制等原因消息只能被发送到一个统一的单元，例如新加坡SG单元。因此多个机房部署的消费者就必须进行跨单元收消息，然后过滤跟自身相关的消息，进行业务逻辑处理，消息会平均地分配在每一台consumer集群的服务器上。

总结

从RocketMQ的设计、原理以及用过的个人用过的其他分布式框架上看，典型的分布式系统在设计中无外乎要解决的就是以下几点，RocketMQ全都用上了。

服务的注册和发现。一般会有一个统一的注册中心进行管理维护。
服务的提供方和使用方间的通信，可以是异步也可以是同步，例如dubbo服务同步服务，而消息类型就是异步通信。
HA——高可用架构。八字决 ———— “主从同步，读写分离”。要再加一句的话可以是“异地多活”。
负载均衡。典型的负载均衡算法在文章内容里面已经列出好几种了，常用的基本也就这些。

当然消息框架设计中用到的套路远不止这些，包括如何保证消息消费的顺序性、消费者和服务端通信、以及消息持久化等问题也是难点和重点，同样，分布式缓存系统也需要解决这些问题，先写到这里，要完全理解并自己设计一个这样的框架难度还是相当大的。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/live

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-06-06
本文作者：Shadowfiendxiaoh
本文来自：“掘金”，了解相关信息可以关注“掘金”

微信关注我们

原文链接：https://yq.aliyun.com/articles/764250

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

为什么 HashMap 的加载因子是0.75？

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！有很多东西之前在学的时候没怎么注意，笔者也是在重温HashMap的时候发现有很多可以去细究的问题，最终是会回归于数学的，如HashMap的加载因子为什么是0.75？本文主要对以下内容进行介绍：为什么HashMap需要加载因子？解决冲突有什么方法？为什么加载因子一定是0.75？而不是0.8，0.6？若文章有不正之处，或难以理解的地方，请多多谅解，欢迎指正。为什么HashMap需要加载因子？ HashMap的底层是哈希表，是存储键值对的结构类型，它需要通过一定的计算才可以确定数据在哈希表中的存储位置： static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); } // AbstractMap public int hashCode() { int h = 0; Iterator<Entry<K,V&gt...

2020-06-07

597

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！人工智能和物联网(AIoT)是技术领域中的比较新的参与者之一，并且已经获得了迅速的关注。这要归功于其出色的智能认知，边缘计算和自主功能的结合。尽管物联网无疑具有强大的功能，但即使在高峰时期，互联网络也只能发挥作用。物联网已经非常成熟，并且仍将继续增长，到2027年将使用超过410亿个物联网设备。此外，Gartner预测，到2022年，超过80%的企业物联网项目将包括AI组件。但是为什么会这样呢?卡上的广泛采用? 想象一下，以物联网为基础的基础架构是否可以通过自我修复功能运行。不仅要进行自我修复，还应具有进行预测性维护并自动调整外部变量的能力。由于能够分析IoT设备收集的大量实时数据并基于此数据做出自主的智能决策，因此AI有望提供这些收益。对于使用IoT技术的任何企业来说，AIoT都有潜力提高生产力和效率。预计AIoT也将特别适用于制造业，自动驾驶汽车和机器人技术。让我们探讨当人工智能与物联网融合时，这些行业将会发生什么。通过AIoT领先于制造优势智能工厂和仓库是物联网技术最早的...

2020-06-07

576

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。