XtraBackup 8.0.33-28 prepare 速度提升 20 倍！-低调大师

XtraBackup 8.0.33-28 prepare 速度提升 20 倍！

2023-07-31 907

在这篇博文中，我们将描述 Percona XtraBackup 8.0.33-28 的改进，这显著减少了备份准备所需的时间，以便进行恢复操作。 Percona XtraBackup 中的这一改进显着缩短了新节点加入 Percona XtraDB 集群（PXC）所需的时间。

Percona XtraDB Cluster 使用 Percona XtraBackup 在节点之间执行 SST（状态快照传输）。当一个新节点加入集群时，会从 DONOR 到 JOINER 执行 SST。 JOINER 使用 PXB 从 DONOR 流式传输数据目录。 JOINER 必须在使用它之前准备备份。观察到，当 DONOR 拥有大量表空间（一百万个）时，JOINER 一侧的 XtraBackup 无法完成数据准备阶段（xtrabackup -prepare）。

Prepare 阶段

Percona XtraBackup 复制 InnoDB 数据文件。数据在服务器并发修改数据文件时内部不一致，因为服务器并发地修改数据文件。 Percona XtraBackup 对文件执行崩溃恢复，以再次创建一致的可用数据库。这称为 Prepare 操作（xtrabackup -prepare）。

XtraBackup Prepare 操作分两个阶段进行：

Redo Log 应用
Undo Log 应用

Redo Log 应用阶段

将 Redo Log 文件修改的更改应用于页面。此阶段没有行或事务的概念。Redo 应用阶段不会使数据库与事务一致。服务器可以刷新或写入未提交事务的更改到 Redo Log 中。 XtraBackup 仍应用记录在 Redo Log 中的修改，并且 Redo Log 应用阶段不会撤消这些更改。为此，我们必须使用 Undo Log。

Undo Log 应用阶段

Undo Log 应用阶段（也称为回滚阶段），将读取 Undo Log 页面中的更改以撤消事务。然后它们再次应用于页面（例如，再次写入旧值），并写入磁盘。在此阶段之后，备份过程中所有未提交的事务都会被回滚。

Undo Log 记录有两种类型：INSERT Undo Log 记录和 UPDATE Undo Log 记录。删除记录标记被视为 UPDATE UNDO Log 记录的子类型。

格式如下所示：

当服务器写入这些记录时，它不会与每个记录一起写入索引/表信息。它只将“table_id”写入作为 UNDO LOG 记录的一部分。 table_id 用于获取表架构。从 Undo Log 记录中获取表架构和关键字段用于创建索引搜索元组（Key）。此搜索元组（Key）用于查找要执行撤消操作的记录。

所以，给定一个 table_id，你如何获取表架构/定义?

在服务器上初始化“数据字典”（DD）引擎和 DD 缓存后，存储引擎可以请求表定义。例如，InnoDB 根据也称为“se_private_id”的 table_id 请求表定义。

与服务器不同，Percona XtraBackup 无法访问“数据字典”（DD）。初始化 DD 引擎和缓存会增加复杂性和其他服务器依赖项。XtraBackup 不会简单地像服务器一样访问表对象。

为何 Percona XtraBackup 受到数以千计的企业信赖？

Percona XtraBackup 初始化 InnoDB 引擎，并需要所有目的（回滚、导出等）的“InnoDB 表对象”，也称为 dict_table_t。XtraBackup 依靠序列化字典信息（SDI）。这是表的 JSON 表示形式。对于 InnoDB 表空间，该信息存储在表空间内。从 8.0 开始，IBD 文件是“自描述的”；例如，表架构在 IBD 文件中可用。

让我们看一个示例表。

CREATE TABLE test.t1(a INT PRIMARY KEY, b INT);

CREATE TABLE 语句在 test 目录中创建一个名为 t1.ibd 的文件。例如，mysql datadir/test/t1.ibd。因此 t1.ibd 包含有关表结构（列、它们的类型、索引数量、索引中的列、外键等）的信息作为 SDI。使用名为“ibd2sdi”的工具从 IBD 文件中提取 SDI。

ibd2sdi data/test/t1.ibd > t1.sdi

如您所见，表名在“dd_object:name”字段中，列信息存储在“dd_object:columns”数组中。

以往的设计（8.0.33-28 之前）

XtraBackup 从每个 IBD 读取 SDI 并将每个 IBD 中的所有表加载到缓存中作为不可驱逐的。本质上，通过将表加载为不可驱逐来禁用 LRU 缓存。每个表保留在内存中，直到 XtraBackup 退出。

这种方法的问题：

加载不需要回滚的表。
从读取表的 SDI 页面进行不必要的 IO 操作。
加载不必要的表会增加准备所需的时间。
占用内存可能导致 OOM。
如果备份目录包含大量表/IBD 文件，则会导致 XtraBackup Prepare 操作崩溃。
加入 PXC 集群的节点需要更多内存并花费很长时间加入集群。

为什么 XtraBackup 会将表加载为“不可驱逐”？我们可以只是将它们加载为可驱逐来解决问题吗？假设一个表被驱逐，必须再次加载它。XtraBackup 将如何知道包含被驱逐表的表空间（IBD）？它必须再次扫描每个 IBD 才能找到被驱逐的表。

新的设计（8.0.33-28 开始)

为了将表加载为可驱逐的，必须建立 table_id 和包含表的表空间 space_id 之间的关系。它是通过扫描数据字典表 mysql.indexes 和 mysql.index_partitions 的 B 树页面完成的。

建立此 table_id→space_id 关系后，它将在事务回滚期间使用。在这种新设计中，只有在它们上面有事务回滚时，才会加载用户表。

新设计如下：

当达到缓存大小限制或由后台主线程时，缓存中的表将被逐出。

新设计的好处（xtrabackup -prepare）：

使用更少的内存
使用更少的 IO
更快的准备
即使有大量表也能成功完成
节点更快地完成 SST 过程并快速加入 PXC 集群
节点需要更少的内存才能加入 PXC 集群

压测

在其他大小的备份目录上对 xtrabackup -prepare 进行基准测试，如 10K、50K、100K 和 250K 表。性能改进如下：

结论

正如您所见，从 Percona XtraBackup 8.0.33-28 开始，具有字典缓存的 xtrabackup -prepare 更快、更高效。改进将取决于备份目录中的表空间文件（IBD）数量。新节点加入 PXC 集群所需的时间也大大减少，因为 SST 过程将更快完成。

更多技术文章，请访问：https://opensource.actionsky.com/

关于 SQLE

爱可生开源社区的 SQLE 是一款面向数据库使用者和管理者，支持多场景审核，支持标准化上线流程，原生支持 MySQL 审核且数据库类型可扩展的 SQL 审核工具。

SQLE 获取

类型	地址
版本库	https://github.com/actiontech/sqle
文档	https://actiontech.github.io/sqle-docs/
发布信息	https://github.com/actiontech/sqle/releases
数据审核插件开发文档	https://actiontech.github.io/sqle-docs/docs/dev-manual/plugins/howtouse

微信关注我们

原文链接：https://my.oschina.net/actiontechoss/blog/10092036

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Llama 2 来袭 - 在 Hugging Face 上玩转它

🤗 宝子们可以戳阅读原文查看文中所有的外部链接哟！引言今天，Meta 发布了 Llama 2，其包含了一系列最先进的开放大语言模型，我们很高兴能够将其全面集成入 Hugging Face，并全力支持其发布。Llama 2 的社区许可证相当宽松，且可商用。其代码、预训练模型和微调模型均于今天发布了🔥。通过与 Meta 合作，我们已经顺利地完成了对 Llama 2 的集成，你可以在 Hub 上找到 12 个开放模型 (3 个基础模型以及 3 个微调模型，每个模型都有 2 种 checkpoint: 一个是 Meta 的原始 checkpoint，一个是 transformers 格式的 checkpoint)。以下列出了 Hugging Face 支持 Llama 2 的主要工作: Llama 2 已入驻 Hub: 包括模型卡及相应的许可证。支持 Llama 2 的 transformers 库使用单 GPU 微调 Llama 2 小模型的示例 Text Generation Inference (TGI) 已集成 Llama 2，以实现快速高效的生产化推理推理终端 (...

2023-07-25

939

引言对于 Java 开发人员来说，Spring 框架几乎是必不可少的。它是一个广泛用于开发企业应用程序的开源轻量级框架。近几年，Spring Boot 在传统 Spring 框架的基础上应运而生，不仅提供了 Spring 的全部功能，还使开发人员更加便捷地使用。在使用 Spring Boot 时，我们经常会接触到各种 Spring Boot Starter，例如spring-boot-starter-web。只需将该依赖加入项目中，我们就可以开始开发应用；在引入spring-boot-starter-data-jdbc后，只需在配置文件中填写数据库连接信息，即可连接数据库。此外，您还可以随意切换数据源组件依赖，而无需修改业务代码。Spring Boot Starter 是如何适配的呢？我们能否自己实现一个 Spring Boot Starter 呢？本文将剖析 Spring Boot Starter 的原理，并自定义实现一个 Spring Boot Starter 组件。一、Spring Boot Starter 是什么？ Spring Boot Starter 是 Spring ...

2023-08-01

853

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。