架构设计｜基于 raft-listener 实现实时同步的主备集群-低调大师

架构设计｜基于 raft-listener 实现实时同步的主备集群

2024-04-17 358

背景以及需求

线上业务对数据库可用性可靠性要求较高，要求需要有双 AZ 的主备容灾机制。
主备集群要求数据和 schema 信息实时同步，数据同步平均时延要求在 1s 之内，p99 要求在 2s 之内。
主备集群数据要求一致
要求能够在主集群故障时高效自动主备倒换或者手动主备倒换，主备倒换期间丢失的数据可找回。

为什么使用 Listener

Listener：这是一种特殊的 Raft 角色，并不参与投票，也不能用于多副本的数据一致性。

原本的 NebulaGraph 中的 Listener 是一个 Raft 监听器，它的作用是将数据异步写入外部的 Elasticsearch 集群，并在查询时去查找 ES 以实现全文索引的功能。

这里我们需要的是 Listener 的监听能力，用于快速同步数据到其他集群，并且是异步的执行，不影响主集群的正常读写。

这里我们需要定义两个新的 Listener 类型：

Meta Listener：用于同步表结构以及其他元数据信息
Storage Listener：用于同步 storaged 服务的数据

这样 storaged 服务和 metad 服务的 part leader 节点接受到写请求时，除了同步一份数据给 follower 节点，也会同步一份给各自的 listener 节点。

备集群如何接受数据？

现在我们面临几个问题：

两个新增 Listener 在接收到 leader 同步的日志后，应该如何再同步给备集群？
我们需要匹配和解析不同的数据操作，例如添加点、删除点、删除边、删除带索引的数据等等操作；
我们需要将解析到的不同操作的数据重新组装成一个请求发送给备集群的 storaged 服务和 metad 服务；

通过走读 nebula-storaged 的内核代码我们可以看到，无论是 metad 还是 storaged 的各种创建删除表结构以及各种类型数据的插入，最后都会序列化成一个 wal 的 log 发送给 follower 以及 listener 节点，最后存储在 RocksDB 中。

因此，我们的 listener 节点需要具备从 log 日志中解析并识别操作类型的能力，和封装成原请求的能力，因为我们需要将操作同步给备集群的 metad 以及 storaged 服务。

这里涉及到一个问题，主集群的 listener 需要如何感知备集群？备集群 metad 服务的信息以及 storaged 服务的信息？从架构设计上来看，两个集群之间应该有一个接口通道互相连接，但又不干涉，如果由 listener 节点直接发送请求给备集群的 nebula 进程，两个集群的边界就不是很明显了。所以这里我们再引入一个备集群的服务 listener 服务，它用于接收来自主集群的 listener 服务的请求，并将请求转发给自己集群的 metad 以及 storaged 服务。

这样做的好处。两边集群的服务模块是对称的，方便我们后面快速地做主备切换。

Listener 节点的管理和可靠性

为了保证双 AZ 环境的可靠性，很显然 Listener 节点也是需要多节点多活的，在 nebula 内核源码中是有对于 listener 的管理逻辑，但是比较简单，我们还需要设计一个 ListenerManager 实现以下几点能力：

listener 节点注册以及删除命令
listener 节点动态负载均衡（尽量每个 space 各个 part 分布的 listener 要均匀）
listener 故障切换

节点注册管理以及负载均衡都比较简单好设计，比较重要的一点是故障切换应该怎么做？

listener 故障切换的设计

listener 节点故障切换的需求可以拆分为以下几个部分：

listener 同步 wal 日志数据时周期性记录同步的进度（commitId && appendLogId）；
ListenerManager 感知到 listener 故障后，触发动态负载均衡机制，将故障 listener 的 part 分配给其他在运行的 listener；
分配到新 part 的 listener 们获取原先故障 listener 记录的同步进度，并以该进度为起始开始同步数据；

至于 listener 同步 wal 日志数据时周期性记录同步的进度应该记录到哪里？可以是存储到 metad 服务中，也可以存储到 storaged 服务对应的 part 中。

nebula 主备切换设计

在聊主备切换之前，我们还需要考虑一件事，那就是双 AZ 环境中，应该只能有主集群是可读可写的，而其他备集群应该是只读不能写。这样是为了保证两边数据的最终一致性，备集群的写入只能是由主集群的 listener 请求来写入的，而不能被 graphd 服务的请求写入。

所以我们需要对集群状态增加一种“只读模式”，在这种只读模式下，表明当前集群状态是处于备集群的状态，拒绝来自 graphd 服务的写操作。同样的，备集群的 listener 节点处在只读状态时，也只能接收来自主集群的请求并转发给备集群的进程，拒绝来自备集群的 wal 日志同步。

主备倒换发生时，需要有以下几个动作：

主集群的每个 listener 记录自己所负责的 part 的同步进度（commitId && appendLogId）;
备集群的 nebula 服务转换为可写;
备集群的 listener 节点转换为可写，并且开始接收来自自己集群的 metad 和 storaged 进程的 wal 日志;
主集群的 listener 以及各个服务转换为只读状态，开始接收来自新的主集群的数据同步请求;

这几个动作细分下来，最主要的内容就是状态转换以及上下文信息保存和同步，原主集群需要保存自己主备切换前的上文信息（比如同步进度），新的主集群需要加载自己的数据同步起始进度（从当前最新的 commitLog 开始）

主备切换过程中的数据丢失问题

很明显，在上面的设计中，当主备切换发生时，会有一段时间的“双主”的阶段，在这个阶段内，原主集群的剩余日志已经不能再同步给备集群了，这就是会被丢失的数据。如何恢复这些被丢失的数据，可能的方案有很多，因为原主集群的同步进度是有记录的，有哪些数据还没同步完也是可以查询到的，所以可以手动或者自动去单独地同步那一段缺失数据。

当然这种方案也会引入新的问题，这段丢失地数据同步给主集群后，主集群会再次同步一遍回现在的备集群，一段 wal 数据的两次重复操作，不知道为引起什么其他的问题。

所以关于主备切换数据丢失的问题，我们还没有很好的处理方案，感兴趣的伙伴欢迎在评论区讨论。

感谢你的阅读 (///▽///)

对图数据库 NebulaGraph 感兴趣？欢迎前往 GitHub ✨ 查看源码：https://github.com/vesoft-inc/nebula；

想和其他图技术爱好者一起交流心得？和 NebulaGraph 星云小姐姐交个朋友再进个交流群；

微信关注我们

原文链接：https://my.oschina.net/u/4169309/blog/11053163

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

动态配置Lua脚本及应用

NGINX 向云原生演进，All inOpenNJet OpenNJet 是基于Nginx fork并独立演进的应用引擎，提供的Lua脚本运行能力移植自OpenResty 社区开源的lua-nginx-module 模块，该开源的Lua模块可以将Lua脚本通过内嵌的方式直接写在配置文件中，或者通过 *_by_lua_file 的指令（如content_by_lua_file, access_by_lua_file) 写在外部文件中。 Nginx 上难于进行动态化配置的问题，同样存在于Lua脚本的修改上。一旦完成初始配置，脚本内容进行修改后，需要生效一般只能通过两种方式。其一是服务进程重新加载配置（reload)，另一种方案是将脚本放置于外部文件，并通过配置 lua_code_cache off的方式关闭代码缓存机制，但这种方式只适用于开发阶段，生产环境并不适用。 OpenNJet 架构设计已经考虑了动态配置的问题，Lua 脚本内容的修改上，使用架构提供的能力，在兼顾性能的情况下，实现了无需重启或重加载，实时更新Lua脚本的功能。功能说明 Lua动态配置能力，通过模块 ”njt_htt...

2024-04-17

395

Tianji:网站分析器 + 状态监控器 + 服务状态上报动机在我们对网站进行观察时。我们往往需要多个应用一起来组合使用。比如我们需要 ga/umami 等分析工具来查看 pvuv 以及各个页面的访问量，我们需要 uptime 监控器来检查服务器的网络质量与连通性，我们需要通关 prometheus 获取服务端上报的状态来检查服务器的质量。另外如果开发的是一个允许被开源部署的应用，我们往往还需要一个遥测系统来帮助我们对其他人的部署情况做一个最简单的信息收集。我认为这些工具应当是为同一个目的而服务的，那么有没有一款应用能够轻量级的将这些常见的需求整合为一体呢？毕竟在大部分时候我们并不需要非常专业与深入的功能。但是我为了实现全面的监控却需要安装如此多的服务。专精于一项这很好，如果我们是相关能力的专家我们需要这样的专业工具。但是对于大部分只有轻量级需求的用户而言，一个 all in one 的应用会更加方便与易于使用 v1.8.2 版本更新内容增加葡萄牙语支持增加遥测事件数量统计增加status page的标题镜像增加github package源，因为docker hub对...

2024-04-16

388

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。