DolphinDB 高可用集群迁移指南-低调大师

DolphinDB 高可用集群迁移指南

2024-01-10 316

在业务发展初期，资源有限的情况下，为了提高系统的可用性，我们会搭建一个伪高可用环境。伪高可用集群的特点在于其控制节点的元数据文件虽然有多副本，但存在多副本在同一台服务器的情况。与伪高可用集群不同，高可用集群控制节点的元数据文件副本均分布在不同的服务器上，确保在服务器故障或其他问题发生时系统能够保持稳定运行。这种架构设计提供了更强大的容错能力和可靠性，是业务规模扩大后的理想选择。因此，在业务可行并确保资源充足的情况下，我们推荐将伪高可用集群迁移升级为高可用集群，以提升系统的稳定性和可靠性。

接下来，我们将详细介绍如何搭建伪高可用集群，以及如何从伪高可用集群迁移到真正的高可用集群。

1. 概述

1.1 DolphinDB 高可用概述

DolphinDB 集群的高可用主要体现在数据高可用（多副本机制）、元数据高可用（controller 高可用）、客户端高可用（API 指定多个 data node site，支持断连切换）。

数据高可用：DolphinDB 支持在不同的服务器上存储多个数据副本，并且采用二阶段提交协议实现数据副本之间以及数据和元数据之间的强一致性。即使一台机器上的数据损坏，也可以通过访问其他机器上的副本数据来保证数据服务不中断。
元数据高可用：controller 存储了集群访问所需的元数据信息。普通集群只包含一个 controller ，若 controller 发生宕机，将造成集群瘫痪。为了避免这种情况，DolphinDB 允许多个 controller 组成 raft 组，来实现 controller 的高可用。
客户端高可用：在读取和写入流表时，能够自动感知流表的 leader，通过连接参数配置 Raft 组，即使流表的 leader 发生变化，客户端也能够自动感知到，然后切换连接进行消费。

1.2 不同部署模式特点

1.2.1 单节点特点

controller、agent、data node、compute node 部署在同一个物理机器上。对于 data node 和 compute node 只有一个。无法保证高可用，该服务器宕机会导致整体服务不可用。单节点模式拥有与集群模式相同的功能，区别在于单节点模式不支持扩展节点和高可用，而集群模式可以方便地扩展到多个服务器节点以及支持高可用。无法保证高可用，该服务器宕机会导致整体服务不可用。

1.2.2 伪分布式集群特点

controller、agent、data node、compute node 部署在同一个物理机器上。在该服务器上面只有一个 controller，无法满足高可用的特性。但是可以部署多个 data node 和 compute node 来充分利用机器的资源。

如果部署节点数超过3个，则需要申请申请企业版试用授权许可，因为社区版限制集群最大可部署节点总数为3。

1.2.3 伪高可用集群特点

伪高可用集群是满足了 controller 有奇数台的需求，但是会有多个 controller 运行在同一台服务器上面。如果拥有单个节点的服务器出现问题，只要满足活跃的 controller 大于半数，那么就仍可以提供服务。如果拥有多个 controller 的服务器出现宕机，那么整体服务将不可用。

1.2.4 高可用集群特点

高可用集群实现了数据高可用，元数据高可用和客户端高可用。每个 controller 运行在不同的服务器上面，这样的话即使 controller 集群宕机了一半，也还可以继续对外提供服务。

2. 单服务器部署伪高可用集群

单服务器下的高可用为 controller 高可用，需要对不同的 controller 的存储目录写到不同的目录下面来构建单机伪高可用。

2.1 部署架构图

2.2 部署步骤

step1：下载 DolphinDB 安装包（本次安装以2.00.10.5为例）

官方下载地址：http://www.dolphindb.cn/downloads.html

step2：在服务器一（172.0.0.1）上执行如下命令解压到指定目录

unzip DolphinDB_Linux64_V2.00.10.5.zip -d /home/dolphindb_1;

step3：更新软件授权许可

社区版的 License 对内存，CPU核数和集群最大可部署节点总数有限制，所以需要申请企业版试用授权许可，替换掉 /home/dolphindb_1/server/dolphindb.lic。

产品 - DolphinDBwww.dolphindb.cn/product#downloads

step4：在服务器一（172.0.0.1）执行如下命令复制多个安装包来搭建单机伪高可用集群环境

cp -r /home/dolphindb_1 /home/dolphindb_2;
cp -r /home/dolphindb_1 /home/dolphindb_3;

step5：修改服务器一（172.0.0.1）下的三个 dolphindb 安装包下面的配置文件

每个安装包下面都有这四个配置文件，具体内容需要根据实际环境以及配置进行修改。

agent.cfg

cluster.cfg

cluster.nodes

controller.cfg

详细配置文件见附件（单服务器部署伪高可用集群）。

2.3 启动步骤

step1：在每个 dolphindb 安装包下面执行如下命令，启动 controller 和 agent 进程

cd dolphindb_1/server/clusterdemo;
sh startController.sh
sh startAgent.sh

cd dolphindb_2/server/clusterdemo;
sh startController.sh

cd dolphindb_3/server/clusterdemo;
sh startController.sh

step2：在浏览器输入 172.0.0.1:9901 进入 Web 集群管理界面，启动该机的 data node

172.0.0.1:9901 不一定是 controller 的 leader 连接信息，登录该节点会显示 leader 节点是哪一个，点击跳转即可。

step3：执行建库建表语句

3. 双服务器部署伪高可用集群

双服务器下的高可用为 controller 高可用，在一台机器上需要部署两个 controller 进程来模拟高可用。

3.1 部署架构图

3.2 部署步骤

step1：下载 DolphinDB 安装包（本次安装以2.00.10.5为例）

官方下载地址：http://www.dolphindb.cn/downloads.html

step2：在服务器一（172.0.0.1）和服务器二（172.0.0.2）上执行如下命令解压到指定目录

# 服务器一上执行
unzip DolphinDB_Linux64_V2.00.10.5.zip -d /home/dolphindb_1;

# 服务器二上执行
unzip DolphinDB_Linux64_V2.00.10.5.zip -d /home/dolphindb_2;

step3：更新软件授权许可

社区版的 License对内存，CPU 核数和集群最大可部署节点总数有限制，所以需要申请企业版试用授权许可，替换掉服务器一（172.0.0.1）上面的/home/dolphindb_1/server/dolphindb.lic和服务器二（172.0.0.2）上面的/home/dolphindb_2/server/dolphindb.lic。

产品 - DolphinDBwww.dolphindb.cn/product#downloads

step4：在服务器一（172.0.0.1）执行如下命令复制多个安装包来搭建伪高可用集群环境

cp /home/dolphindb_1 /home/dolphindb_3;

step5：修改服务器一（172.0.0.1）下的 dolphindb_1、dolphindb_3 和服务器二（172.0.0.2）下的dolphindb_2 的配置文件

每个安装包下面都有这四个配置文件，具体内容需要根据实际环境以及配置进行修改。

agent.cfg

cluster.cfg

cluster.nodes

controller.cfg

详细配置文件见附件（双服务器部署伪高可用集群）。

3.3 启动步骤

step1：在服务器一（172.0.0.1）下的 dolphindb_1 和 dolphindb_3 安装包下面以及服务器二（172.0.0.2）下的 dolphindb_2 安装包下面执行如下命令，启动 controller 和 agent 进程

# 在服务器一（172.0.0.1）下面执行如下命令
cd dolphindb_1/server/clusterdemo;
sh startController.sh
sh startAgent.sh

cd dolphindb_3/server/clusterdemo;
sh startController.sh

# 在服务器二（172.0.0.2）下面执行如下命令
cd dolphindb_2/server/clusterdemo;
sh startController.sh
sh startAgent.sh

step2：在浏览器输入 172.0.0.1:9901 进入 web 管理界面，把所有的 dataNode 节点启动起来

172.0.0.1:9901 不一定是 controller 的 leader 连接信息，登录该节点会显示 leader 节点是哪一个，点击跳转即可。

step3：登录任一 data node 创建库表信息，验证是否可以正常操作

4. 单服务器伪高可用集群升级为三服务器高可用集群

4.1 迁移架构图

4.2 迁移流程

4.2.1 配置迁移

配置迁移主要是将服务器一（172.0.0.1）下面的 dolphindb_2 和 dolphindb_3 安装包下面的配置迁移到服务器二（172.0.0.2）和服务器三（172.0.0.3）上面。

step1：在服务器一（172.0.0.1）上面执行如下命令关闭所有服务，然后备份现有配置文件

# 在服务器一上面执行如下命令
cd /home/dolphindb_1/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

cd /home/dolphindb_2/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

cd /home/dolphindb_3/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

step2：执行如下命令将服务器一（172.0.0.1）上面的 dolphindb_2 和 dolphindb_3 安装包分别传输到服务器二（172.0.0.2）和服务器三（172.0.0.3）上面

scp /home/dolphindb_2 root@172.0.0.2:/home/dolphindb_2;

scp /home/dolphindb_3 root@172.0.0.3:/home/dolphindb_3;

step3：在服务器一（172.0.0.1）上面的 dolphindb_1 下面的 server/clusterDemo/config 下执行如下命令来修改所有涉及 controller 集群信息的配置文件以及在 cluster.nodes 添加新增的两个 controller

// 修改 controller 集群信息
sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller1/172.0.0.1:\2:controller1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller2/172.0.0.2:\2:controller2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller3/172.0.0.3:\2:controller3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent1/172.0.0.1:\2:agent1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent2/172.0.0.2:\2:agent2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent3/172.0.0.3:\2:agent3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node1/172.0.0.1:\2:\node1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node2/172.0.0.2:\2:node2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node3/172.0.0.3:\2:node3/'  ./*

// 添加服务器二和服务器三的 agent
echo '172.0.0.2:9905:agent2,agent' >> cluster.nodes
echo '172.0.0.3:9906:agent3,agent' >> cluster.nodes

step4：在服务器二（172.0.0.2）上面的 dolphindb_2 下面的 server/clusterDemo/config 下执行如下命令来修改所有涉及 controller 集群信息的配置文件和修改服务器二的 agent 信息以及在 cluster.nodes 添加新增的两个 controller

// 修改 controller 集群信息和 agent 信息
sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller1/172.0.0.1:\2:controller1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller2/172.0.0.2:\2:controller2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller3/172.0.0.3:\2:controller3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent1/172.0.0.1:\2:agent1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent2/172.0.0.2:\2:agent2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent3/172.0.0.3:\2:agent3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node1/172.0.0.1:\2:\node1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node2/172.0.0.2:\2:node2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node3/172.0.0.3:\2:node3/'  ./*

// 添加服务器二和服务器三的 agent
echo '172.0.0.2:9905:agent2,agent' >> cluster.nodes
echo '172.0.0.3:9906:agent3,agent' >> cluster.nodes

step5：在服务器三（172.0.0.3）上面的 dolphindb_3 下面的 server/clusterDemo/config 下执行如下命令来修改所有涉及 controller 集群信息的配置文件和修改服务器三的 agent 信息以及在 cluster.nodes 添加新增的两个 controller

// 修改 controller 集群信息和 agent 信息
sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller1/172.0.0.1:\2:controller1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller2/172.0.0.2:\2:controller2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller3/172.0.0.3:\2:controller3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent1/172.0.0.1:\2:agent1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent2/172.0.0.2:\2:agent2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent3/172.0.0.3:\2:agent3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node1/172.0.0.1:\2:\node1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node2/172.0.0.2:\2:node2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node3/172.0.0.3:\2:node3/'  ./*

// 添加服务器二和服务器三的 agent
echo '172.0.0.2:9905:agent2,agent' >> cluster.nodes
echo '172.0.0.3:9906:agent3,agent' >> cluster.nodes

4.2.2 数据迁移

数据迁移主要是将服务器一（172.0.0.1）下面的 dolphindb_2 和 dolphindb_3 安装包下面的 controller.cfg 配置和 cluster.cfg 配置下面的数据路径迁移到服务器二（172.0.0.2）和服务器三（172.0.0.3）。

执行如下命令，将 dolphindb_2 相关的磁盘数据从服务器一（172.0.0.1）迁移到服务器二（172.0.0.2），将 dolphindb_3 相关的磁盘数据从服务器一（172.0.0.1）迁移到服务器三（172.0.0.3）

scp -r /ssd/ssd1/dolphindb_2 root@172.0.0.2:/ssd/ssd1/;

scp -r /ssd/ssd1/dolphindb_3 root@172.0.0.3:/ssd/ssd1/;

4.2.3 启动集群

step1：在每台服务器的 server/clusterDemo 下面执行如下命令启动 controller 和 agent

sh startController.sh
sh startAgent.sh

step2：在浏览器输入 https://172.0.0.1:9901 进入控制点节点的 web 页面，然后启动所有的 data node 即可

172.0.0.1:9901 不一定是 controller 的 leader 连接信息，登录该节点会显示 leader 节点是哪一个，点击跳转即可。

step3：登录任意一个 data node 查询之前的库表信息并且新建立库表，查看操作是否正常

5. 双服务器伪高可用集群升级为三服务器高可用集群

5.1 迁移架构图

5.2 迁移流程

5.2.1 配置迁移

配置迁移主要是将服务器一（172.0.0.1）下面的 dolphindb_3 安装包下面的配置迁移到服务器三（172.0.0.3）上面。

step1：在服务器一（172.0.0.1）和服务器二（172.0.0.2）上面执行如下命令关闭所有服务，然后备份现有配置文件

# 在服务器一上面执行如下命令
cd /home/dolphindb_1/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

cd /home/dolphindb_3/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

# 在服务器二上面执行如下命令
cd /home/dolphindb_2/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

step2：执行如下命令将服务器一（172.0.0.1）上面的 dolphindb_3 安装包传输到服务器三（172.0.0.3）

scp /home/dolphindb_3 root@172.0.0.3:/home/dolphindb_3;

step3：在服务器一（172.0.0.1）上面的 dolphindb_1 下面的 server/clusterDemo/config 下执行如下命令来修改所有涉及 controller 集群信息的配置文件以及在 cluster.nodes 添加新增的一个 agent

// 修改 controller 集群信息
sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller1/172.0.0.1:\2:controller1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller2/172.0.0.2:\2:controller2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller3/172.0.0.3:\2:controller3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent1/172.0.0.1:\2:agent1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent2/172.0.0.2:\2:agent2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent3/172.0.0.3:\2:agent3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node1/172.0.0.1:\2:\node1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node2/172.0.0.2:\2:node2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node3/172.0.0.3:\2:node3/'  ./*

// 添加服务器三的 agent
echo '172.0.0.3:9906:agent3,agent' >> cluster.nodes

step4：在服务器二（172.0.0.2）上面的 dolphindb_2 下面的 server/clusterDemo/config 下执行如下命令来修改所有涉及 controller 集群信息的配置文件以及在 cluster.nodes 添加新增的一个 agent

// 修改 controller 集群信息和 agent 信息
sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller1/172.0.0.1:\2:controller1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller2/172.0.0.2:\2:controller2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller3/172.0.0.3:\2:controller3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent1/172.0.0.1:\2:agent1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent2/172.0.0.2:\2:agent2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent3/172.0.0.3:\2:agent3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node1/172.0.0.1:\2:\node1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node2/172.0.0.2:\2:node2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node3/172.0.0.3:\2:node3/'  ./*

// 添加服务器三的 agent
echo '172.0.0.3:9906:agent3,agent' > cluster.nodes

step5：在服务器三（172.0.0.3）上面的 dolphindb_3 下面的 server/clusterDemo/config 下执行如下命令来修改所有涉及 controller 集群信息的配置文件和修改服务器三的 agent 信息以及在 cluster.nodes 添加新增的一个 agent

// 修改 controller 集群信息和 agent 信息
sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller1/172.0.0.1:\2:controller1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller2/172.0.0.2:\2:controller2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller3/172.0.0.3:\2:controller3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent1/172.0.0.1:\2:agent1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent2/172.0.0.2:\2:agent2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent3/172.0.0.3:\2:agent3/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node1/172.0.0.1:\2:\node1/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node2/172.0.0.2:\2:node2/' -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):node3/172.0.0.3:\2:node3/'  ./*

// 添加服务器三的 agent
echo '172.0.0.3:9906:agent3,agent' > cluster.nodes

5.2.2 数据迁移

数据迁移主要是将服务器一（172.0.0.1）下面的 dolphindb_3 安装包下面的 controller.cfg 配置和 cluster.cfg 配置下面的数据路径迁移到服务器三（172.0.0.3）。

执行如下命令，将 dolphindb_3 相关的磁盘数据从服务器一（172.0.0.1）迁移到服务器三（172.0.0.3）

scp /ssd/ssd1/dolphindb3 root@172.0.0.3:/ssd/ssd1/dolphindb3

5.2.3 启动集群

step1：在每台服务器的 server/clusterDemo 下面执行如下命令启动 controller 和 agent

sh startController.sh
sh startAgent.sh

step2：在浏览器输入 https://172.0.0.1:9901 进入控制点节点的 web 页面，然后启动所有的 data node 即可

172.0.0.1:9901 不一定是 controller 的 leader 连接信息，登录该节点会显示 leader 节点是哪一个，点击跳转即可。

step3：登录任意一个 data node 查询之前的库表信息并且新建立库表，查看操作是否正常

6. 三服务器高可用集群升级为五服务器及以上高可用集群

6.1 迁移架构图

本次升级只涉及到 controller 的升级，如果涉及 data node 和 compute node 的添加，可以参考集群扩容和数据再平衡这两篇文章。

6.2 迁移流程

对于本身就是高可用的集群，如要提高 controller 的宕机容忍度，就需要增加 controller 的节点。因为 dolphindb 的分布式协议采用 Raft。所以对于 controller 要求是奇数台。

step1：在服务器一（172.0.0.1）、服务器二（172.0.0.2）和服务器三（172.0.0.3）上面执行如下命令关闭所有服务，然后备份现有配置文件

# 在服务器一上面执行如下命令
cd /home/dolphindb_1/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

# 在服务器二上面执行如下命令
cd /home/dolphindb_2/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

# 在服务器三上面执行如下命令
cd /home/dolphindb_3/server/clusterDemo;
sh stopAllNode.sh;
cp -r ./config ./config.bak

step2：执行如下命令将服务器一（172.0.0.1）上面的 dolphindb_1 安装包传输到服务器四（172.0.0.4）和服务器五（172.0.0.5）上面

# 在服务器一上面执行如下命令
scp -r /home/dolphindb_1 root@172.0.0.4:/home/dolphindb_4
scp -r /home/dolphindb_1 root@172.0.0.5:/home/dolphindb_5

step3：在服务器一（172.0.0.1）、服务器二（172.0.0.2）和服务器三（172.0.0.3）上面的 server/clusterDemo/config 下面执行如下命令来修改所有涉及 controller 集群信息的配置文件以及在 cluster.nodes 添加新增的两个 controller

sed -i '/^sites/s/$/,172.0.0.4:9912:controller4:controller,172.0.0.5:9913:controller5:controller/' agent.cfg

echo 172.0.0.4:9912:controller4,controller >> cluster.nodes
echo 172.0.0.5:9913:controller5,controller >> cluster.nodes

主要修改 agent.cfg 里面 controller 集群的信息，cluster.nodes 里面添加 controller4 和 controller5 的节点信息。

step4：在服务器四（172.0.0.4）上面的 dolphindb_4 的 server/clusterDemo/config 下面执行如下命令来修改所有涉及 controller 集群信息的配置文件以及在 cluster.nodes 添加新增的两个 controller

sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller1/172.0.0.4:9912:controller4/' controller.cfg
sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent1/172.0.0.4:9910:agent4/' agent.cfg
sed -i '/^sites/s/$/,172.0.0.4:9912:controller4:controller,172.0.0.5:9913:controller5:controller/' agent.cfg

echo 172.0.0.4:9912:controller4,controller >> cluster.nodes
echo 172.0.0.4:9913:controller5,controller >> cluster.nodes

主要修改 cluster.nodes 里面添加 controller4 和 controller5 的节点信息，controller.cfg 里面当前节点的信息。服务器四和服务器五主要是用来扩展 controller，所以服务器四和服务器五上面的 agent.cfg 可以不修改。

step5：在服务器五（172.0.0.5）上面的 dolphindb_5 的 server/clusterDemo/config 下面执行如下命令来修改所有涉及 controller 集群信息的配置文件以及在 cluster.nodes 添加新增的两个 controller

sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):controller1/172.0.0.5:9913:controller5/' controller.cfg
sed -i.bak -E -e 's/([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+):([0-9]+):agent1/172.0.0.5:9911:agent5/' agent.cfg
sed -i '/^sites/s/$/,172.0.0.4:9912:controller4:controller,172.0.0.5:9913:controller5:controller/' agent.cfg

echo 172.0.0.4:9912:controller4,controller >> cluster.nodes
echo 172.0.0.5:9913:controller5,controller >> cluster.nodes

step6：在集群的每台机器的 dolphindb 安装包下面的 server/clusterDemo 下面执行如下命令启动 controller

sh startController.sh

step7：在服务器一（172.0.0.1）、服务器二（172.0.0.2）和服务器三（172.0.0.3）的 dolphindb 安装包下面的 server/clusterDemo 下面执行如下命令启动 agent

sh startAgent.sh

step8：在浏览器输入 https://172.0.0.1:9901 进入控制点节点的 web 页面，然后启动所有的 data node 即可

172.0.0.1:9901 不一定是 controller 的 leader 连接信息，登录该节点会显示 leader 节点是哪一个，点击跳转即可。

step9：登录 data node 查询之前建立的库表信息

集群能够正常对外提供服务。

7. 常见问题解答（FAQ）

7.1 什么情况下需要迁移 controller 的元数据？

升级之前的集群是 controller 伪高可用，即有两个或两个以上的 controller 运行在同一台服务器，在这种情况下升级需要迁移相关元数据信息。

7.2 低于三台服务器如何搭建高可用集群？

高可用集群要求 controller 是奇数，如果服务器数量低于 3 台，那么建议在单台机器运行多个 controller，使 controller 的服务数为奇数。

7.3 网页无法访问集群？

首先检查集群是否正常启动，在集群内部能否正常访问服务。其次检查防火墙，因为 web 客户端很可能与集群不在同一网络，检查相关端口是否开放。

7.4 controller 和 agent 服务运行后，data node 无法启动，报出 agent 不存在的错误信息？

首先检查 agent.cfg 的配置文件，确保 agent 的配置没有问题。如果任然启动不了，接下来排查 cluster.nodes 里面各个节点的 IP 配置是否正确。

7.5 迁移数据时应该注意什么？

迁移前后的路径应该保持一致，即从根路径到文件的绝对路径保持一致。

7.6 如何部署 DolphinDB，避免后续的迁移？

详细的规划和设计： 在部署 DolphinDB 之前，确保对系统的需求和使用场景进行详细规划和设计。理解数据量、并发访问、性能需求等方面的特点，以便选择合适的部署和配置选项。
监控和警报系统： 部署监控和警报系统，对关键指标进行实时监控，以及时发现并解决潜在的问题。监控系统可以帮助你在问题发生之前采取预防措施。
合理的容量规划： 根据数据增长和用户需求进行合理的容量规划。确保系统在未来有足够的扩展能力，避免因为容量不足而导致的迁移。

微信关注我们

原文链接：https://my.oschina.net/u/4865736/blog/10750628

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GaussDB如何进行性能调优

GaussDB性能调优过程需要综合考虑多方面因素，因此，调优人员应对系统软件架构、软硬件配置、数据库配置参数、并发控制、查询处理和数据库应用有广泛而深刻的理解。调优流程调优各阶段说明，如下表所示。数据库性能调优通常发生在用户对业务的执行效率不满意，期望通过调优加快业务执行的情况下。正如“性能因素”小节所述，数据库性能受影响因素多，从而性能调优是一项复杂的工程，有些时候无法系统性地说明和解释，而是依赖于DBA的经验判断。尽管如此，此处还是期望能尽量系统性的对性能调优方法加以说明，方便应用开发人员和刚接触GaussDB的DBA参考。性能因素多个性能因素会影响数据库性能，了解这些因素可以帮助定位和分析性能问题。系统资源数据库性能在很大程度上依赖于磁盘的I/O和内存使用情况。为了准确设置性能指标，用户需要了解集群部署硬件的基本性能。CPU，硬盘，磁盘控制器，内存和网络接口等这些硬件性能将显著影响数据库的运行速度。负载负载等于数据库系统的需求总量，它会随着时间变化。总体负载包含用户查询，应用程序，并行作业，事务以及数据库随时传递的系统命令。比如：多用户在执行多个查询时会提高负载...

2024-01-10

345

原文链接，作者：Anton Zaides。这本是一个安静的星期六。我收到了支持团队的一条消息，说我们一个客户遇到了问题。我认为这个问题很重要，值得开始调试。15 分钟后，我明白了问题所在 - 在数据库中有一些损坏的订单需要删除。听起来小菜一碟。事故还原如果你不给创业公司打工，请不要嘲笑我 😅 有几百个订单需要删除，所以我决定不手动操作，而是编写一个简单的 SQL 查询语句（警告 🚩）实际上比这复杂一些，但这里简化一下： UPDATE orders SET is_deleted = true WHERE id in (1, 2, 3) 你大概已经猜到这场灾难的规模了... 我按下了 CTRL + Enter 并运行了命令。当它花费超过一秒钟时，我明白发生了什么。我的客户端 DBeaver 看到空的第三行，并忽略了第四行。是的，我删除了数据库中所有的订单 😢 我整个人都不好了。恢复深吸一口气后，我知道我必须快速行动起来。不能犯更多错误浪费时间了。恢复工作做得很好。停止系统 - 约 5 分钟创建变更前数据库（幸运的是我们有 PITR）的克隆 - 约 20 分钟 ...

2024-01-10

323

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。