搜索[分布式锁]结果-低调大师优秀个人博客

精选列表

搜索[分布式锁]，共10000篇文章

分布式存储助推新基建数据蓝海

分布式存储和分布式系统的提升简单说，分布式存储就是一种数据存储技术，通过网络使用每台机器上的磁盘空间，并将这些分散的存储资源构成一个虚拟的存储设备，数据分散地存储在网络中的各个角落。

2021-01-07

TiDB 3.0.20现已发布，该版本具体更新内容如下：兼容性更改 TiDB 废弃配置文件中的enable-streaming配置项#21054 改进提升 TiDB 优化LOAD DATA语句执行PREPARE时的报错信息#21222 TiKV 增加end_point_slow_log_threshold配置#9145 Bug 修复 TiDB 修复错误缓存悲观事务提交状态的问题#21706 修复当查询INFORMATION_SCHEMA.TIDB_HOT_REGIONS时，统计信息不准确的问题#21319 修复了一处数据库名大小写处理不当，导致的DELETE未正确删除数据的问题#21205 修复创建递归的视图出现栈溢出的问题#21000 修复 TiKV 客户端 goroutine 泄漏的问题#20863 修复year类型默认值为0的问题#20828 修复 Index Lookup Join 的 goroutine 泄漏问题#20791 修复在悲观事务中执行INSERT SELECT FOR UPDATE后客户端收到 malformed packet 的问题#20681 修复'posixrules'错误时区的问题#20605 修复将无符号整型转换为 bit 类型时出现的错误#20362 修复 bit 列类型默认值错误的问题#20339 修复当等值条件中有Enum和Set类型时结果可能错误的问题#20296 修复!= any()时的错误问题#20061 修复类型转换在BETWEEN...AND...中会遇到结果错误的问题#21503 修复ADDDATE函数兼容性的问题#21008 为新增的Enum列设置正确的默认值#20999 修复SELECT DATE_ADD('2007-03-28 22:08:28',INTERVAL "-2.-2" SECOND)这类 SQL 语句的结果问题，使之兼容 MySQL#20627 修复当修改列属性时，默认类型设置错误的问题#20532 修复timestamp函数的参数为float和decimal时，结果错误的问题#20469 修复统计信息可能会死锁的问题#20424 修复溢出的 Float 类型数据被INSERT的问题#20251 TiKV 修复当事务删除 key 时却报 key 已存在的问题#8931 PD 修复当 stale Region 过多时，启动 PD 会打印过量日志的问题#3064 更新说明：https://docs.pingcap.com/zh/tidb/stable/release-3.0.20

2020-12-28

TiDB 4.0.9 发布，分布式 NewSQL 数据库

TiDB 4.0.9 现已发布，该版本具体更新内容如下：兼容性更改 TiDB 废弃配置文件中enable-streaming配置项#21055 TiKV 减少开启加密时的 I/O 开销和锁冲突。

2020-12-23

开源分布式存储 Curve ChunkServer CPU 优化实践

对于分布式块存储系统来说，IOPS是最重要的一个性能指标。

2020-12-15

浅谈高可用分布式流数据存储设计

为解决这一数据治理乱象，分布式流数据存储应运而生。数据存储的进化史起初，单体服务应用只需一个数据库存储数据就足够了。

2020-12-02

springboot + aop + Lua分布式限流的最佳实践

而Lua本身就是一种编程语言，虽然redis 官方没有直接提供限流相应的API，但却支持了 Lua 脚本的功能，可以使用它实现复杂的令牌桶或漏桶算法，也是分布式系统中实现限流的主要方式之一。

2020-12-02

分布式存储开发：Curve中的内存管理

前言 Curve 实践过程中遇到过几次内存相关的问题，与操作系统内存管理相关的是以下两次： chunkserver上内存无法释放 mds出现内存缓慢增长的现象内存问题在开发阶段大多很难发现，测试阶段大压力稳定性测试(持续跑7*24小时以上)、异常测试往往比较容易出问题，当然这还需要我们在测试阶段足够仔细，除了关注io相关指标外，还要关注服务端内存/CPU/网卡等资源使用情况以及采集的metric是否符合预期。比如上述问题mds 内存缓慢增长，如果只关注io是否正常，在测试阶段是无法发现的。内存问题出现后定位也不容易，尤其在软件规模较大的情况下。本文主要是从开发者的角度来谈 Curve 中的内存管理，不会过度强调内存管理理论，目的是把我们在软件开发过程中对 Linux 内存管理的认知、内存问题分析的一些方法分享给大家。本文会从以下几个方面展开：内存布局。结合 Curve 软件说明内存布局。内存分配策略。说明内存分配器的必要性，以及需要解决的问题和具有的特点，然后通过举例说明其中一个内存分配器的内存管理方法。 Curve 的内存管理。介绍当前 Curve 软件内存分配器的选择及原因。内存布局在说内存管理之前，首先简要介绍下内存布局相关知识。软件在运行时需要占用一定量的内存用来存放一些数据，但进程并不直接与存放数据的物理内存打交道，而是直接操作虚拟内存。物理内存是真实的存在，就是内存条；虚拟内存为进程隐藏了物理内存这一概念，为进程提供了简洁易用的接口和更加复杂的功能。本文说的内存管理是指虚拟内存管理。为什么需要抽象一层虚拟内存？虚拟内存和物理内存是如何映射管理的？物理寻址是怎么的？这些虚拟内存更下层的问题不在本文讨论范围。 Linux 为每个进程维护了一个单独的虚拟地址空间，包括两个部分进程虚拟存储器（用户空间）和内核虚拟存储器（内核空间），本文主要讨论进程可操作的用户空间，形式如下图。现在我们使用pmap查看运行中的 curve-mds 虚拟空间的分布。pmap用于查看进程的内存映像信息，该命令读取的是/proc/[pid]/maps中的信息。 // pmap -X {进程id} 查看进程内存分布 sudo pmap -X 2804620 // pmap 获取的 curve-mds 内存分布有很多项 Address Perm Offset Device Inode Size Rss Pss Referenced Anonymous ShmemPmdMapped Shared_Hugetlb Private_Hugetlb Swap SwapPss Locked Mapping // 为了方便展示这里把从 Pss 后面的数值删除了, 中间部分地址做了省略 2804620: /usr/bin/curve-mds -confPath=/etc/curve/mds.conf -mdsAddr=127.0.0.1:6666 -log_dir=/data/log/curve/mds -graceful_quit_on_sigterm=true -stderrthreshold=3 Address Perm Offset Device Inode Size Rss Pss Mapping c000000000 rw-p 00000000 00:00 0 65536 1852 1852 559f0e2b9000 r-xp 00000000 41:42 37763836 9112 6296 6296 curve-mds 559f0eb9f000 r--p 008e5000 41:42 37763836 136 136 136 curve-mds 559f0ebc1000 rw-p 00907000 41:42 37763836 4 4 4 curve-mds 559f0ebc2000 rw-p 00000000 00:00 0 10040 4244 4244 559f1110a000 rw-p 00000000 00:00 0 2912 2596 2596 [heap] 7f6124000000 rw-p 00000000 00:00 0 156 156 156 7f6124027000 ---p 00000000 00:00 0 65380 0 0 7f612b7ff000 ---p 00000000 00:00 0 4 0 0 7f612b800000 rw-p 00000000 00:00 0 8192 8 8 7f612c000000 rw-p 00000000 00:00 0 132 4 4 7f612c021000 ---p 00000000 00:00 0 65404 0 0 ..... 7f6188cff000 ---p 0026c000 41:42 37750237 2044 0 0 7f61895b7000 r-xp 00000000 41:42 50201214 96 96 0 libpthread-2.24.so 7f61895cf000 ---p 00018000 41:42 50201214 2044 0 0 libpthread-2.24.so 7f61897ce000 r--p 00017000 41:42 50201214 4 4 4 libpthread-2.24.so 7f61897cf000 rw-p 00018000 41:42 50201214 4 4 4 libpthread-2.24.so 7f61897d0000 rw-p 00000000 00:00 0 16 4 4 7f61897d4000 r-xp 00000000 41:42 50200647 16 16 0 libuuid.so.1.3.0 7f61897d8000 ---p 00004000 41:42 50200647 2044 0 0 libuuid.so.1.3.0 7f61899d7000 r--p 00003000 41:42 50200647 4 4 4 libuuid.so.1.3.0 7f61899d8000 rw-p 00004000 41:42 50200647 4 4 4 libuuid.so.1.3.0 7f61899d9000 r-xp 00000000 41:42 37617895 9672 8904 8904 libetcdclient.so 7f618a34b000 ---p 00972000 41:42 37617895 2048 0 0 libetcdclient.so 7f618a54b000 r--p 00972000 41:42 37617895 6556 5664 5664 libetcdclient.so 7f618abb2000 rw-p 00fd9000 41:42 37617895 292 252 252 libetcdclient.so 7f618abfb000 rw-p 00000000 00:00 0 140 60 60 7f618ac1e000 r-xp 00000000 41:42 50201195 140 136 0 ld-2.24.so 7f618ac4a000 rw-p 00000000 00:00 0 1964 1236 1236 7f618ae41000 r--p 00023000 41:42 50201195 4 4 4 ld-2.24.so 7f618ae42000 rw-p 00024000 41:42 50201195 4 4 4 ld-2.24.so 7f618ae43000 rw-p 00000000 00:00 0 4 4 4 7fffffd19000 rw-p 00000000 00:00 0 132 24 24 [stack] 7fffffdec000 r--p 00000000 00:00 0 8 0 0 [vvar] 7fffffdee000 r-xp 00000000 00:00 0 8 4 0 [vdso] ffffffffff600000 r-xp 00000000 00:00 0 4 0 0 [vsyscall] ======= ===== ===== 1709344 42800 37113 上面输出中进程实际占用的空间是从 0x559f0e2b9000 开始，不是内存分布图上画的 0x40000000。这是因为地址空间分布随机化（ASLR），它的作用是随机生成进程地址空间（例如栈、库或者堆）的关键部分的起始地址，目的是增强系统安全性、避免恶意程序对已知地址攻击。Linux 中/proc/sys/kernel/randomize_va_space的值为 1 或 2 表示地址空间随机化已开启，数值1、2的区别在于随机化的关键部分不同；0表示关闭。接下来 0x559f0e2b9000 0x559f0eb9f000 0x559f0ebc1000 三个地址起始对应的文件都是curve-mds ，但是对该文件的拥有不同的权限，各字母代表的权限r-读 w-写 x-可执行 p-私有 s-共享。curve-mds 是elf类型文件，从内容的角度看，它包含代码段、数据段、BSS段等；从装载到内存角度看，操作系统不关心各段所包含的内容，只关心跟装载相关的问题，主要是权限，所以操作系统会把相同权限的段合并在一起去加载，就是我们这里看到的以代码段为代表的权限为可读可执行的段、以只读数据为代表的权限为只读的段、以数据段和 BSS 段为代表的权限为可读可写的段。再往下 0x559f1110a000 开始，对应上图的运行时堆，运行时动态分配的内存会在这上面进行。我们发现也是在.bss段的结束位置进行了随机偏移。接着 0x7f6124000000 开始，对应的是上图 mmap 内存映射区域，这一区域包含动态库、用户申请的大片内存等。到这里我们可以看到Heap和Memory Mapping Region都可以用于程序中使用malloc动态分配的内存，在下一节内存分配策略中会有展开，也是本文关注重点。接着 0x7fffffd19000 开始是栈空间，一般有数兆字节。最后 vvar、vdso、vsyscall 区域是为了实现虚拟函数调用以加速部分系统调用，使得程序可以不进入内核态1直接调用系统调用。这里不具体展开。内存分配策略我们平时使用malloc分配出来的内存是在Heap和Memory Mapping Region这两个区域。mallloc 实际上由两个系统调用完成：brk和mmap brk 分配的区域对应堆 heap mmap 分配的区域对应 Memory Mapping Region 如果让每个开发者在软件开发时都直接使用系统调 brk 和 mmap 用去分配释放内存，那开发效率将会变得很低，而且也很容易出错。一般来说我们在开发中都会直接使用内存管理库，当前主流的内存管理器有三种：ptmalloc``tcmalloc``jemalloc, 都提供malloc, free接口，glibc 默认使用ptmalloc。这些库的作用是管理它通过系统调用获得的内存区域，一般来说一个优秀的通用内存分配器应该具有以下特征：额外的空间损耗量尽量少。比如应用程序只需要5k内存，结果分配器给他分配了10k，会造成空间的浪费。分配的速度尽可能快。尽量避免内存碎片。下面我们结合图来直观的感受下内存碎片。通用性、兼容性、可移植性、易调试。我们通过下面一幅图直观说明下 glibc 默认的内存管理器 ptmalloc 在单线程情况下堆内存的回收和分配： malloc(30k)通过系统调用 brk 扩展堆顶的方式分配内存。 malloc(20k)通过系统调用 brk 继续扩展堆顶。 malloc(200k)默认情况下请求内存大于 128K （由M_MMAP_THRESHOLD确定，默认大小为128K，可以调整），就利用系统调用 mmap分配内存。 free(30k)这部分空间并没有归还给系统，而是 ptmalloc 管理着。由1、2两步的 malloc 可以看出，我们分配空间的时候调用 brk 进行堆顶扩展，那归还空间给系统是相反操作即收缩堆顶。这里由于第二步 malloc(20k) 的空间并未释放，所以此时堆顶无法收缩。这部分空间是可以被再分配的，比如此时 malloc(10k)，那可以从这里分配 10k 空间，而不需要通过 brk 去申请。考虑这样一种情况，堆顶的空间一直被占用，堆顶向下的空间有部分被应用程序释放但由于空间不够没有再被使用，就会形成内存碎片。 free(20k)这部分空间应用程序释放后，ptmalloc 会把刚才的 20k 和 30k 的区域合并，如果堆顶空闲超过M_TRIM_THREASHOLD，会把这块区域收缩归还给操作系统。 free(200k)mmap分配出来的空间会直接归还给系统。那对于多线程程序，ptmalloc 又是怎么区分配的？多线程情况下需要处理各线程间的竞争，如果还是按照之前的方式，小于HEAP_MAX_SIZE（ 64 位系统默认大小为 64M ）的空间使用 brk 扩展堆顶，大于HEAP_MAX_SIZE的空间使用 mmap 申请，那对于线程数量较多的程序，如果每个线程上存在比较频繁的内存分配操作，竞争会很激烈。ptmalloc 的方法是使用多个分配区域，包含两种类型分配区：主分配区和动态分配区。主分配区：会在Heap和Memory Mapping Region这两个区域分配内存动态分配区：在Memory Mapping Region区域分配内存，在 64 位系统中默认每次申请的大小位。Main 线程和先执行 malloc 的线程使用不同的动态分配区，动态分配区的数量一旦增加就不会减少了。动态分配区的数量对于 32 位系统最多是 ( 2 number of cores + 1 ) 个，对于 64 位系统最多是（ 8 number of cores + 1 ）个。举个多线程的例子来看下这种情况下的空间分配： // 共有三个线程 // 主线程：分配一次 4k 空间 // 线程1: 分配 100 次 4k 空间 // 线程2: 分配 100 次 4k 空间 #include <stdio.h> #include <stdlib.h> #include <pthread.h> #include <unistd.h> #include <sys/types.h> void* threadFunc(void* id) { std::vector<char *> malloclist; for (int i = 0; i < 100; i++) { malloclist.emplace_back((char*) malloc(1024 * 4)); } sleep(300); // 这里等待是为查看内存分布 } int main() { pthread_t t1,t2; int id1 = 1; int id2 = 2; void* s; int ret; char* addr; addr = (char*) malloc(4 * 1024); pthread_create(&t1, NULL, threadFunc, (void *) &id1); pthread_create(&t2, NULL, threadFunc, (void *) &id2); pthread_join(t1, NULL); pthread_join(t2, NULL); return 0; } 我们用 pmap 查看下该程序的内存分布情况： 741545: ./memory_test Address Perm Offset Device Inode Size Rss Pss Mapping 56127705a000 r-xp 00000000 08:02 62259273 4 4 4 memory_test 56127725a000 r--p 00000000 08:02 62259273 4 4 4 memory_test 56127725b000 rw-p 00001000 08:02 62259273 4 4 4 memory_test 5612784b9000 rw-p 00000000 00:00 0 132 8 8 [heap] **7f0df0000000 rw-p 00000000 00:00 0 404 404 404 7f0df0065000 ---p 00000000 00:00 0 65132 0 0 7f0df8000000 rw-p 00000000 00:00 0 404 404 404 7f0df8065000 ---p 00000000 00:00 0 65132 0 0** 7f0dff467000 ---p 00000000 00:00 0 4 0 0 7f0dff468000 rw-p 00000000 00:00 0 8192 8 8 7f0dffc68000 ---p 00000000 00:00 0 4 0 0 7f0dffc69000 rw-p 00000000 00:00 0 8192 8 8 7f0e00469000 r-xp 00000000 08:02 50856517 1620 1052 9 libc-2.24.so 7f0e005fe000 ---p 00195000 08:02 50856517 2048 0 0 libc-2.24.so 7f0e007fe000 r--p 00195000 08:02 50856517 16 16 16 libc-2.24.so 7f0e00802000 rw-p 00199000 08:02 50856517 8 8 8 libc-2.24.so 7f0e00804000 rw-p 00000000 00:00 0 16 12 12 7f0e00808000 r-xp 00000000 08:02 50856539 96 96 1 libpthread-2.24.so 7f0e00820000 ---p 00018000 08:02 50856539 2044 0 0 libpthread-2.24.so 7f0e00a1f000 r--p 00017000 08:02 50856539 4 4 4 libpthread-2.24.so 7f0e00a20000 rw-p 00018000 08:02 50856539 4 4 4 libpthread-2.24.so 7f0e00a21000 rw-p 00000000 00:00 0 16 4 4 7f0e00a25000 r-xp 00000000 08:02 50856513 140 140 1 ld-2.24.so 7f0e00c31000 rw-p 00000000 00:00 0 16 16 16 7f0e00c48000 r--p 00023000 08:02 50856513 4 4 4 ld-2.24.so 7f0e00c49000 rw-p 00024000 08:02 50856513 4 4 4 ld-2.24.so 7f0e00c4a000 rw-p 00000000 00:00 0 4 4 4 7ffe340be000 rw-p 00000000 00:00 0 132 12 12 [stack] 7ffe3415c000 r--p 00000000 00:00 0 8 0 0 [vvar] 7ffe3415e000 r-xp 00000000 00:00 0 8 4 0 [vdso] ffffffffff600000 r-xp 00000000 00:00 0 4 0 0 [vsyscall] ====== ==== === 153800 2224 943 关注上面加粗的部分，红色区域加起来是 65536K，其中有 404K 是 rw-p （可读可写）权限，65132K 是 —-p （不可读写）权限；黄色区域类似。两个线程分配的时 ptmalloc 分别给了动态分区，并且每次申请 64M 内存，再从这 64M 中切分出一部分给应用程序。这里还有一个有意思的现象：我们用strace -f -e "brk, mmap, munmap" -p {pid}去跟踪程序查看下 malloc 中的系统调用： mmap(NULL, 8392704, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS|MAP_STACK, -1, 0) = 0x7f624a169000 strace: Process 774601 attached [pid 774018] mmap(NULL, 8392704, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS|MAP_STACK, -1, 0) = 0x7f6249968000 [pid 774601] mmap(NULL, 134217728, PROT_NONE, MAP_PRIVATE|MAP_ANONYMOUS|MAP_NORESERVE, -1, 0) = 0x7f6241968000 [pid 774601] munmap(0x7f6241968000, 40468480strace: Process 774602 attached ) = 0 [pid 774601] munmap(0x7f6248000000, 26640384) = 0 [pid 774602] mmap(NULL, 134217728, PROT_NONE, MAP_PRIVATE|MAP_ANONYMOUS|MAP_NORESERVE, -1, 0) = 0x7f623c000000 [pid 774602] munmap(0x7f6240000000, 67108864) = 0 这里主线程 [774018] 要求分配了 8M+4k 空间；线程1 [774601] 先 mmap 了 128M 空间，再分归还了 0x7f6241968000 为起始地址的 40468480 字节和 0x7f6248000000为起始地址的 26640384 字节，那剩余的部分是 0x7F6244000000 ~ 0x7F6248000000。先申请再归还是为了让分配的这部分内存的起止地址是字节对齐的。 Curve 的内存管理 Curve 中选择了两种分配器：ptmalloc和jemalloc。其中 MDS 使用默认的 ptmalloc，Chunkserver 和 Client 端使用 jemalloc。本文开头提到的两个问题在这里进行说明。首先是MDS内存缓慢增长，现象是每天增长 3G。这个问题分析的过程如下：首先是使用pmap查看内存分布。我们用 pmap 查看内存缓慢增长的 curve-mds 内存分配情况，发现在 Memory Mapping Region 存在着大量分配的 64M 内存，且观察一段时间后都不释放还在一直分配。从这里怀疑存在内存泄露。然后查看应用上请求的压力情况。查看MDS 上相关的业务 metric，发现 MDS 上的压力都很小，一些控制面 rpc 的 iops 在几百左右，不应该是业务压力较大导致的。接下来查看 curve-mds 部分 64M 内存上的数据。使用gdb -p {pid} attach跟踪线程，dump meemory mem.bin {addr1} {addr2}获取指定地址段的内存，然后查看这部分内存内容，基本确定几个怀疑点。根据这几个点去排查代码，看是否有内存泄露。 Chunkserver 端不是开始就使用 jemalloc 的，最初也是用的默认的 ptmalloc。换成 jemalloc 是本文开始提到的 Chunkserver 在测试过程中出现内存无法释放的问题，这个问题的现象是：chunkserver的内存在 2 个小时内增长很快，一共增长了 50G 左右，但后面并未释放。这个问题分析的过程如下：首先分析内存中数据来源。这一点跟 MDS 不同，MDS 上都是控制面的请求以及一些元数据的缓存。而Chunkserver 上的内存增长一般来自两个地方：一是用户发送的请求，二是 copyset 的 leader 和 follower 之间同步数据。这两个都会涉及到 brpc 模块。 brpc 的内存管理有两个模块 IOBuf 和 ResourcePool。IOBuf 中的空间一般用于存放用户数据，ResourcePool 管理 socket、bthread_id 等对象，管理的内存对象单位是 64K 。查看对应模块的一些趋势指标。观察这两个模块的metric，发现 IOBuf 和 ResourcePool 这段时间内占用的内存都有相同的增长趋势。 IOBuf 后面将占用的内存归还给 ptmalloc， ResourcePool 中管理的内存不会归还给 ptmalloc 而是自己管理。从这个现象我们怀疑 IOBuf 归还给 ptmalloc 的内存 ptmalloc 无法释放。分析验证。结合第二节的内存分配策略，如果堆顶的空间一直被占用，那堆顶向下的空间也是无法被释放的。仍然可以使用 pmap 查看当前堆上内存的大小以及内存的权限（是否有很多 —-p 权限的内存）来确定猜想。因此后面 Chunkserver 使用了 jemalloc。这里可以看到在多线程情况下，如果一部分内存被应用长期持有，使用 ptmalloc 也许就会遇到内存无法释放的问题。这里对 MDS 和 Chunkserver 出现的两个问题进行了总结，一方面想说明 Curve 选择不同内存分配器的原因。对于一个从 0 到 1 的项目，代码开发之初选择内存分配器不是一个特别重要的事情，如果有比较多的开发和解决类似内存问题的经验，开始做出评估是好的；但如果没有，可以先选择一个，出现问题或者到需要优化内存性能的时候再去分析。另外一方面希望可以给遇到类似内存问题的小伙伴一些定位的思路。作者：李小翠，网易数帆存储团队Curve项目攻城狮。如有理解和描述上有疏漏或者错误的地方，欢迎共同交流；参考已经在参考文献中注明，但仍有可能有疏漏的地方，有任何侵权或者不明确的地方，欢迎指出，必定及时更正或者删除；文章供于学习交流，转载注明出处参考文献 [1]ptmalloc,tcmalloc,jemalloc对比分析 [2]十问linux虚拟内存管理(glibc) [3]Go语言使用cgo时的内存管理笔记 [3] 深入理解计算机系统 [美] 兰德尔 E.布莱恩特（Randal E.·Bryant）著，龚奕利，贺莲译相关链接 Curv项目介绍网易数帆存储负责人亲述：我眼中的 Curve 与 Ceph Curve开源技术直播（每周五19:00） Curve的roadmap

2020-11-24

分布式集群如何实现高效的数据分布

一、前言随着互联网的发展，用户产生的数据越来越多，企业面临着庞大数据的存储问题，目前市面上主流的分布式大数据文件系统，都是对数据切片打散，通过离散方法将数据散列在集群的所有节点上，本文将带你了解DHT

2020-11-18

分布式系统架构常见知识点梳理

（4）分布式锁关于分布式锁的设计，从以下四个角度考虑：第一：互斥性。在任意时刻，只有一个客户端能持有锁。第二：不会发生死锁。

2020-10-22

主流开源分布式图数据库 Benchmark

本文由美团 NLP 团队高辰、赵登昌撰写首发于 Nebula Graph 官方论坛：https://discuss.nebula-graph.com.cn/t/topic/1377 1. 前言近年来，深度学习和知识图谱技术发展迅速，相比于深度学习的“黑盒子”，知识图谱具有很强的可解释性，在搜索推荐、智能助理、金融风控等场景中有着广泛的应用。美团基于积累的海量业务数据，结合使用场景进行充分地挖掘关联，逐步建立起包括美食图谱、旅游图谱、商品图谱在内的近十个领域知识图谱，并在多业务场景落地，助力本地生活服务的智能化。为了高效存储并检索图谱数据，相比传统关系型数据库，选择图数据库作为存储引擎，在多跳查询上具有明显的性能优势。当前业界知名的图数据库产品有数十款，选型一款能够满足美团实际业务需求的图数据库产品，是建设图存储和图学习平台的基础。我们结合业务现状，制定了选型的基本条件：开源项目，对商业应用友好拥有对源代码的控制力，才能保证数据安全和服务可用性。支持集群模式，具备存储和计算的横向扩展能力美团图谱业务数据量可以达到千亿以上点边总数，吞吐量可达到数万 qps，单节点部署无法满足存储需求。能够服务 OLTP 场景，具备毫秒级多跳查询能力美团搜索场景下，为确保用户搜索体验，各链路的超时时间具有严格限制，不能接受秒级以上的查询响应时间。具备批量导入数据能力图谱数据一般存储在 Hive 等数据仓库中。必须有快速将数据导入到图存储的手段，服务的时效性才能得到保证。我们试用了 DB-Engines 网站上排名前 30 的图数据库产品，发现多数知名的图数据库开源版本只支持单节点，不能横向扩展存储，无法满足大规模图谱数据的存储需求，例如：Neo4j、ArangoDB、Virtuoso、TigerGraph、RedisGraph。经过调研比较，最终纳入评测范围的产品为：NebulaGraph（原阿里巴巴团队创业开发）、Dgraph（原 Google 团队创业开发）、HugeGraph（百度团队开发）。 2. 测试概要 2.1 硬件配置数据库实例：运行在不同物理机上的 Docker 容器。单实例资源：32 核心，64GB 内存，1TB SSD 存储。【Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz】实例数量：3 2.2 部署方案 Nebula v1.0.1 Metad 负责管理集群元数据，Graphd 负责执行查询，Storaged 负责数据分片存储。存储后端采用 RocksDB。实例 1 实例 2 实例 3 Metad Metad Metad Graphd Graphd Graphd Storaged[RocksDB] Storaged[RocksDB] Storaged[RocksDB] Dgraph v20.07.0 Zero 负责管理集群元数据，Alpha 负责执行查询和存储。存储后端为 Dgraph 自有实现。实例 1 实例 2 实例 3 Zero Zero Zero Alpha Alpha Alpha HugeGraph v0.10.4 HugeServer 负责管理集群元数据和查询。HugeGraph 虽然支持 RocksDB 后端，但不支持 RocksDB 后端的集群部署，因此存储后端采用 HBase。实例1 实例2 实例3 HugeServer[HBase] HugeServer[HBase] HugeServer[HBase] JournalNode JournalNode JournalNode DataNode DataNode DataNode NodeManager NodeManager NodeManager RegionServer RegionServer RegionServer ZooKeeper ZooKeeper ZooKeeper NameNode NameNode[Backup] - - ResourceManager ResourceManager[Backup] HBase Master HBase Master[Backup] - 3. 评测数据集社交图谱数据集：https://github.com/ldbc011 生成参数：branch=stable, version=0.3.3, scale=1000 实体情况：4 类实体，总数 26 亿关系情况：19 类关系，总数 177 亿数据格式：csv GZip 压缩后大小：194 G 4. 测试结果 4.1 批量数据导入 4.1.1 测试说明批量导入的步骤为：Hive 仓库底层 csv 文件 -> 图数据库支持的中间文件 -> 图数据库。各图数据库具体导入方式如下： Nebula：执行 Spark 任务，从数仓生成 RocksDB 的底层存储 sst 文件，然后执行 sst Ingest 操作插入数据。 Dgraph：执行 Spark 任务，从数仓生成三元组 rdf 文件，然后执行 bulk load 操作直接生成各节点的持久化文件。 HugeGraph：支持直接从数仓的 csv 文件导入数据，因此不需要数仓-中间文件的步骤。通过 loader 批量插入数据。 4.1.2 测试结果 4.1.3 数据分析 Nebula：数据存储分布方式是主键哈希，各节点存储分布基本均衡。导入速度最快，存储放大比最优。 Dgraph：原始 194G 数据在内存 392G 的机器上执行导入命令，8.7h 后 OOM 退出，无法导入全量数据。数据存储分布方式是三元组谓词，同一种关系只能保存在一个数据节点上，导致存储和计算严重偏斜。 HugeGraph：原始 194G 的数据执行导入命令，写满了一个节点 1,000G 的磁盘，造成导入失败，无法导入全量数据。存储放大比最差，同时存在严重的数据偏斜。 4.2 实时数据写入 4.2.1 测试说明向图数据库插入点和边，测试实时写入和并发能力。响应时间：固定的 50,000 条数据，以固定 qps 发出写请求，全部发送完毕即结束。取客户端从发出请求到收到响应的 Avg、p99、p999 耗时。最大吞吐量：固定的 1,000,000 条数据，以递增 qps 发出写请求，Query 循环使用。取 1 分钟内成功请求的峰值 qps 为最大吞吐量。插入点 Nebula INSERT VERTEX t_rich_node (creation_date, first_name, last_name, gender, birthday, location_ip, browser_used) VALUES ${mid}:('2012-07-18T01:16:17.119+0000', 'Rodrigo', 'Silva', 'female', '1984-10-11', '84.194.222.86', 'Firefox') Dgraph { set { <${mid}> <creation_date> "2012-07-18T01:16:17.119+0000" . <${mid}> <first_name> "Rodrigo" . <${mid}> <last_name> "Silva" . <${mid}> <gender> "female" . <${mid}> <birthday> "1984-10-11" . <${mid}> <location_ip> "84.194.222.86" . <${mid}> <browser_used> "Firefox" . } } HugeGraph g.addVertex(T.label, "t_rich_node", T.id, ${mid}, "creation_date", "2012-07-18T01:16:17.119+0000", "first_name", "Rodrigo", "last_name", "Silva", "gender", "female", "birthday", "1984-10-11", "location_ip", "84.194.222.86", "browser_used", "Firefox") 插入边 Nebula INSERT EDGE t_edge () VALUES ${mid1}->${mid2}:(); Dgraph { set { <${mid1}> <link> <${mid2}> . } } HugeGraph g.V(${mid1}).as('src').V(${mid2}).addE('t_edge').from('src') 4.2.2 测试结果实时写入 4.2.3 数据分析 Nebula：如 4.1.3 节分析所述，Nebula 的写入请求可以由多个存储节点分担，因此响应时间和吞吐量均大幅领先。 Dgraph：如 4.1.3 节分析所述，同一种关系只能保存在一个数据节点上，吞吐量较差。 HugeGraph：由于存储后端基于 HBase，实时并发读写能力低于 RocksDB（Nebula）和 BadgerDB（Dgraph），因此性能最差。 4.3 数据查询 4.3.1 测试说明以常见的 N 跳查询返回 ID，N 跳查询返回属性，共同好友查询请求测试图数据库的读性能。响应时间：固定的 50,000 条查询，以固定 qps 发出读请求，全部发送完毕即结束。取客户端从发出请求到收到响应的 Avg、p99、p999 耗时。 60s 内未返回结果为超时。最大吞吐量：固定的 1,000,000 条查询，以递增 qps 发出读请求，Query 循环使用。取 1 分钟内成功请求的峰值 qps 为最大吞吐量。缓存配置：参与测试的图数据库都具备读缓存机制，默认打开。每次测试前均重启服务清空缓存。 N 跳查询返回 ID Nebula GO ${n} STEPS FROM ${mid} OVER person_knows_person Dgraph { q(func:uid(${mid})) { uid person_knows_person { #${n}跳数 = 嵌套层数 uid } } } HugeGraph g.V(${mid}).out().id() #${n}跳数 = out()链长度 N 跳查询返回属性 Nebula GO ${n} STEPS FROM ${mid} OVER person_knows_person YIELDperson_knows_person.creation_date, $$.person.first_name, $$.person.last_name, $$.person.gender, $$.person.birthday, $$.person.location_ip, $$.person.browser_used Dgraph { q(func:uid(${mid})) { uid first_name last_name gender birthday location_ip browser_used person_knows_person { #${n}跳数 = 嵌套层数 uid first_name last_name gender birthday location_ip browser_used } } } HugeGraph g.V(${mid}).out() #${n}跳数 = out()链长度共同好友查询语句 Nebula GO FROM ${mid1} OVER person_knows_person INTERSECT GO FROM ${mid2} OVER person_knows_person Dgraph { var(func: uid(${mid1})) { person_knows_person { M1 as uid } } var(func: uid(${mid2})) { person_knows_person { M2 as uid } } in_common(func: uid(M1)) @filter(uid(M2)){ uid } } HugeGraph g.V(${mid1}).out().id().aggregate('x').V(${mid2}).out().id().where(within('x')).dedup() 4.3.2 测试结果 N 跳查询返回 ID N 跳查询返回属性单个返回节点的属性平均大小为 200 Bytes。共同好友本项未测试最大吞吐量。 4.3.3 数据分析在 1 跳查询返回 ID「响应时间」实验中，Nebula 和 DGraph 都只需要进行一次出边搜索。由于 DGraph 的存储特性，相同关系存储在单个节点，1 跳查询不需要网络通信。而 Nebula 的实体分布在多个节点中，因此在实验中 DGraph 响应时间表现略优于 Nebula。在 1 跳查询返回 ID「最大吞吐量」实验中，DGraph 集群节点的 CPU 负载主要落在存储关系的单节点上，造成集群 CPU 利用率低下，因此最大吞吐量仅有 Nebula 的 11%。在 2 跳查询返回 ID「响应时间」实验中，由于上述原因，DGraph 在 qps=100 时已经接近了集群负载能力上限，因此响应时间大幅变慢，是 Nebula 的 3.9 倍。在 1 跳查询返回属性实验中，Nebula 由于将实体的所有属性作为一个数据结构存储在单节点上，因此只需要进行【出边总数 Y】次搜索。而 DGraph 将实体的所有属性也视为出边，并且分布在不同节点上，需要进行【属性数量 X * 出边总数 Y】次出边搜索，因此查询性能比 Nebula 差。多跳查询同理。在共同好友实验中，由于此实验基本等价于 2 次 1 跳查询返回 ID，因此测试结果接近，不再详述。由于 HugeGraph 存储后端基于 HBase，实时并发读写能力低于 RocksDB（Nebula）和 BadgerDB（Dgraph），因此在多项实验中性能表现均落后于 Nebula 和 DGraph。 5. 结论参与测试的图数据库中，Nebula 的批量导入可用性、导入速度、实时数据写入性能、数据多跳查询性能均优于竞品，因此我们最终选择了 Nebula 作为图存储引擎。 6. 参考资料 NebulaGraph Benchmark：https://discuss.nebula-graph.com.cn/t/topic/782 NebulaGraph Benchmark 微信团队：https://discuss.nebula-graph.com.cn/t/topic/1013 DGraph Benchmark：https://dgraph.io/blog/tags/benchmark/ HugeGraph Benchmark：https://hugegraph.github.io/hugegraph-doc/performance/hugegraph-benchmark-0.5.6.html TigerGraph Benchmark：https://www.tigergraph.com/benchmark/ RedisGraph Benchmark：https://redislabs.com/blog/new-redisgraph-1-0-achieves-600x-faster-performance-graph-databases/ 本次性能测试系美团 NLP 团队高辰、赵登昌撰写，如果你对本文有任意疑问，欢迎来原贴和作者交流：https://discuss.nebula-graph.com.cn/t/topic/1377

2020-10-21

详解GaussDB(DWS) explain分布式执行计划

摘要：本文主要介绍如何详细解读GaussDB(DWS)产生的分布式执行计划，从计划中发现性能调优点。

2020-10-20

空谈分布式系统设计之幂等性

这篇文章以两个典型的实际案例为基础，聊一聊分布式系统如何实现幂等性。案例一：转账系统在之前的文章，有多次提到转账系统这个案例，由于这个案例太典型了，很多大学教授数据库事务的时候就是用的这个案例。

2020-10-09

TiDB 4.0.5 发布，分布式 NewSQL 数据库

添加列的特征的标识#796 支持输出上一版本的 DDL 和表结构#799 优化提升 TiDB 优化Union场景下DecodePlan的开销#18941 减少 GC 在遇到Region cache miss错误时扫描锁的次数

2020-09-03

Redkale 2.1.0 发布，Java 分布式微服务框架

Redkale，一个Java分布式微服务框架，1.3M的jar可以代替传统几十M的第三方。包含TCP/UDP、HTTP、RPC、依赖注入、序列化与反序列化、数据库操作、WebSocket等功能。

2020-09-01

TiDB 3.0.18 发布，分布式 NewSQL 数据库

TiDB3.0.18现已发布，该版本更新内容如下：提升改进 Tools TiDB Binlog 支持更加细粒度的 Pump GC 时间#996 Bug 修复 TiDB 修复Hash函数对Decimal类型的错误处理导致 HashJoin 结果错误的问题#19185 修复Hash函数对Set和Enum类型的错误处理导致 HashJoin 结果错误的问题#19175 修复 Duplicate Key 检测在悲观事务下失效的问题#19236 修复Apply算子和Union Scan算子执行导致结果错误的问题#19297 修复某些缓存的执行计划在事务中执行结果错误的问题#19274 TiKV 将 GC 的失败日志从 Error 级别改成 Warning 级别#8444 Tools TiDB Lightning 修复命令行参数--log-file无法生效的问题#345 修复 TiDB-backend 遇到空的 binary/hex 报语法错误的问题#357 修复使用 TiDB backend 时非预期的switch-mode调用#368 发布说明：https://docs.pingcap.com/zh/tidb/stable/release-3.0.18

2020-08-22

Apache HBase 2.3.1 发布，分布式存储系统

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。

2020-08-21

TiDB 3.0.17 发布，分布式 NewSQL 数据库

TiDB3.0.17现已发布，该版本更新内容如下： Bug 修复 TiDB 当一个查询中含有IndexHashJoin或IndexMergeJoin算子，且该算子的子节点发生 panic 时，返回客户端 panic 的原因，而非返回空结果#18498 修复形如SELECT a FROM t HAVING t.a的查询返回UnknowColumn错误的问题#18432 当一张表没有主键，或其主键为整型时，禁止在这张表上执行添加主键#18342 对EXPLAIN FORMAT="dot" FOR CONNECTION始终返回空结果#17157 修复STR_TO_DATE函数处理'%r'和'%h'的行为#18725 TiKV 修复在 Region 合并过程中可能导致读到旧数据的问题#8111 修复调度时可能产生内存泄漏的问题#8355 TiDB Lightning 解决log-file参数不生效的问题#345 优化 TiDB 将配置项query-feedback-limit默认值从 1024 修改为 512, 并优化统计信息反馈机制，降低其对集群的性能影响#18770 限制单次 split 请求中的 Region 个数#18694 加速 HTTP API/tiflash/replica在集群中存在大量历史 DDL 记录时的访问速度#18386 提升索引等值条件下的行数估算准确率#17609 加快kill tidb conn_id的响应速度#18506 TiKV 新增hibernate-timeout配置支持推后 Region 休眠时间，减少 Region 休眠对滚动升级的影响#8207 TiDB Lightning 废弃[black-white-list]参数，新增一种更加简单易用的过滤规则#332 发布说明：https://pingcap.com/docs-cn/stable/releases/release-3.0.17/

2020-08-04

TiDB 4.0.4 发布，分布式 NewSQL 数据库

TiDB 4.0.4 现已发布，该版本具体更新内容如下： Bug 修复 TiDB 修复查询information_schema.columns卡死的问题#18849 修复PointGet和BatchPointGet在遇到in(null)条件时出错的问题#18848 修复BatchPointGet算子结果不正确的问题#18815 修复HashJoin算子在遇到set、enum类型时查询结果不正确的问题#18859 更新说明：https://pingcap.com/docs-cn/stable/releases/release-4.0.4/

2020-08-03

TiDB 4.0.3 发布，分布式 NewSQL 数据库

遇到执行中发生非内存相关的错误时，返回错误而不是空结果集#18586 修复 gRPC transportReader 导致的反复异常#18562 修复因为 Green GC 不会扫描已下线 store 上的锁而可能导致数据不完整的问题

2020-07-25

TiDB 3.0.16 发布，分布式 NewSQL 数据库

TiDB3.0.16现已发布，该版本更新内容如下：优化 TiDB 在 hash partition pruning 中支持is null过滤条件#17308 为每个 Region 设置单独的Backoffer避免多个 Region 同时失败引起等待时间过长#17583 添加新 partition 更新已有 partition 的分裂信息#17668 丢弃来自delete/update语句的 feedbacks#17841 调整job.DecodeArgs中json.Unmarshal的使用以兼容新的 Go 版本#17887 移除slow log和statement summary中一些敏感信息#18128 Datetime解析的分隔符和 MySQL 兼容#17499 解析日期的%h时限定在1..12范围内#17496 TiKV 避免在收到 snapshot 之后发送心跳给 PD 以提高稳定性#8145 优化了 PD client 的日志#8091 Bug 修复 TiDB 修复当锁住的 primary key 在当前事务被插入/删除时可能造成的结果不一致问题#18248 修复因字段含义不一致导致日志中出现大量Got too many pingsgRPC 错误的问题#17944 修复当 HashJoin 返回Null类型列可能造成的 panic 问题#17935 修复访问被拒绝时的错误信息#17722 修复 JSON 数据中int和float类型比较的问题#17715 修复 Failpoint 测试造成的 data race 问题#17710 修复 Region 预分裂超时在创建表时可能不生效的问题#17617 修复BatchClient中因为失败可能导致的主动 panic#17378 修复FLASHBACK TABLE在某些情况下可能失败的问题#17165 修复只有 string 列时 range 范围计算可能不准确的问题#16658 修复only_full_group_by模式下的错误#16620 修复case when函数返回字段长度不准确的问题#16562 修复count聚合函数对decimal类型推断的问题#17702 TiKV 修复了潜在的 ingest file 导致的读取结果错误的问题#8039 修复了多次 merge 过程中被隔离的节点上的副本无法被正确移除的问题#8005 PD 修复一些情况下使用 PD Control 查询 Region 报404错误的问题#2577 发布说明： https://pingcap.com/docs-cn/stable/releases/release-3.0.16/

2020-07-07

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。