解读TaurusDB字段压缩：减少存储成本，避免语句大量修改

2025-01-17 371

摘要：TaurusDB的字段压缩功能，不仅支持用户根据需求进行自选压缩算法等操作，实现细粒度的压缩策略调整，还能够自动识别并压缩符合条件的字段。

本文分享自华为云社区《【华为云MySQL技术专栏】TaurusDB新特性解读：字段压缩》，作者：GaussDB 数据库。

1. 技术背景

数据库压缩是一种数据管理技术，通过特定的压缩算法将数据库中的数据进行压缩，以减少存储空间占用，从而达到显著降低成本的效果。

社区MySQL InnoDB的压缩功能主要针对长期存储的冷数据，对于频繁访问的热数据，由于可能带来高达50%的性能影响，因此在生产环境中应用较少。现有的压缩机制，如表压缩和页面压缩，难以在不影响业务正常运行的情况下，提供针对特定字段的自定义压缩方式的灵活性。

自社区MySQL InnoDB 5.1版本起，开始支持表压缩功能，使用方式为CREATE TABLE ... ROW_FORMAT=COMPRESSED KEY_BLOCK_SIZE=8，这种方式要求数据必须压缩到固定大小，比如1K、2K、4K或8K，且一旦指定，不可修改。

到了社区MySQL InnoDB 5.7版本，进一步支持页面压缩，使用方式为CREATE TABLE ... COMPRESSION="zlib"。在Checkpoint刷页面时，对页面数据进行压缩，而读取到Buffer Pool时，则进行解压缩。压缩页会在Buffer Pool中，同时保留压缩和非压缩两个版本，占用Buffer Pool空间，这种压缩方式与块大小相关。例如，当文件系统块大小为4KB时，16KB页面中数据被压缩到9KB，它仍然会占用3个4KB文件系统块。

为满足客户追求更佳成本效益的需求，TaurusDB研发并推出了字段级压缩特性，旨在提供更为精细的压缩控制，以实现更高效的存储优化。

2．特性价值

TaurusDB推出细粒度的字段压缩功能，针对VARCHAR和LOB字段，提供了ZLIB和ZSTD两种压缩算法。在字段数据存储到Page时进行压缩，读取字段时进行解压缩，确保Page大小不变，REDO数据中保存压缩后的数据。用户可以根据实际需求，综合考虑压缩比和压缩/解压操作的性能影响，选择合适的压缩算法和等级，对不频繁访问的大字段进行压缩。

同时，TaurusDB字段压缩特性还提供了自动压缩的能力，对用户表中满足类型及长度阈值的列自动添加压缩属性，帮助用户更方便地使用此特性。

通过相关基准模型测试，开启字段压缩特性后，若业务不涉及压缩字段，则对性能无影响；若涉及压缩字段，则通常系统性能损失在10%以内。而进行压缩前后的数据大小比值可达1.8及以上，这意味着以较小的性能损耗为代价，显著降低了存储成本，实现了经济效益与系统效率的平衡。

3．实现原理

TaurusDB字段压缩特性，在存储层面上根据不同情况采用压缩或非压缩格式，实现了高效的数据压缩与解压缩。

在存储引擎层Compact行格式数据，如图1所示，对于VARCHAR等这种变长的数据类型，系统不仅需要存储该字段的实际数据，还需要额外存储该数据的长度信息（即占用的字节数）。

图1 Compact行格式数据

TaurusDB实现的字段压缩特性，在各列数据中增添了代表压缩属性的内容。对于未使用字段压缩特性的列，其值保持原有格式；而对于已使用字段压缩特性的列，将上述所示的列数据值，改为如下所示两种格式。

第一种，字段压缩中的压缩格式，如图2所示：

图2 字段压缩中的压缩格式

它包含Compress Header（压缩头）、Uncompressed Data Len（未压缩前的字段长度）和Compressed Data（压缩数据），作用如下：

Compress Header：保存是否已进行压缩、采用的压缩算法等元数据。

Uncompressed Data Len：保存数据在压缩前的原始长度，即占用的字节数。

Compressed Data：保存经过压缩处理后的实际数据内容。

第二种，字段压缩中的非压缩格式，如图3所示：

图3 字段压缩中的非压缩格式

它包含Compress Header（压缩头）和Original Uncompressed Data（未压缩数据），其作用如下：

Compress Header：保存是否已进行压缩、采用的压缩算法等元数据。

Original Uncompressed Data：直接存储未压缩的数据，避免不必要的压缩处理。

在处理数据时，如果数据过短，即小于字段压缩阈值参数rds_column_compression_threshold，或调用压缩接口后发现并未明显带来存储空间的节省时，系统将采用该格式。

对于包含压缩字段的写入流程：在调用row_mysql_store_col_in_innobase_format函数，将SQL引擎层数据转为存储引擎层数据时，若通过元信息判断字段存在压缩属性，则调用压缩接口，将压缩后的数据写入Page中，以不改变页面大小而减少页面数量的方式，减少占用的存储空间。

对于包含压缩字段的读取流程：在调用row_sel_field_store_in_mysql_format_func函数，将存储引擎层数据转为SQL引擎层数据时，若通过元信息判断字段存在压缩属性，则调用解压缩接口。

TaurusDB压缩/解压缩实现的效果如图4所示，对于SQL Engine层而言，看到的内容均为未压缩的数据，而压缩/解压缩的动作实际发生在Storage Engine层，且只针对具有压缩属性的列单独进行压缩。

图4 TaurusDB压缩/解压缩示意

4 业务场景/流程

4.1 特性参数

为了使得TaurusDB字段压缩特性更方便地被用户所使用，已开放5个相关参数，在“实例管理”处点击“参数修改-参数”页面即可调整字段压缩参数，如图5所示。

图5 调整字段压缩参数

各个参数的具体范围及含义见表1所示。

表1 字段压缩参数说明

4.2 使用

显式压缩 [rds_column_compression=1]

例如，显式地创建压缩字段（如图5，设置默认压缩算法参数rds_default_column_compression_algorithm=ZLIB），在SQL语句中对需要进行压缩的字段显式地标记出压缩属性compressed，若不单独指定压缩算法，则按照rds_default_column_compression_algorithm参数指定的算法使用。

图6 显式压缩参数设置

执行如下SQL语句：

create table t1(c1 varchar(100) compressed, c2 varchar(100) compressed=zlib, c3 varchar(100) compressed=zstd) default charset=latin1;

对t1表中的三列显式添加压缩属性，并对c3列单独指定压缩算法为ZSTD，查看显式压缩添加的压缩属性，如图7所示。

图7 查看压缩属性

自动压缩 [rds_column_compression=2]

例如，自动地创建压缩字段（如图8,设置字段压缩阈值参数rds_column_compression_threshold=100，设置默认压缩算法参数rds_default_column_compression_algorithm=ZLIB），SQL语句不需要改造，自动对符合条件的列添加压缩属性。

图8 自动压缩参数设置

执行如下SQL语句：

create table t2(c1 varchar(99), c2 varchar(100)) default charset=latin1;

系统将自动为t2表的c2列添加压缩属性，使用rds_default_column_compression_algorithm参数值作为默认压缩算法，查看自动压缩添加的压缩属性，如图9所示。

图9 查看压缩属性

关闭压缩 [rds_column_compression=0]

关闭特性后，无法再继续对列添加压缩属性，设置参数如图10所示。

图10 关闭压缩参数设置

执行如下SQL语句：

create table t3(c1 varchar(100) compressed, c2 varchar(100) compressed=zlib, c3 varchar(100) compressed=zstd) default charset=latin1;

即便已对列添加压缩属性，但实际不生效，关闭效果如图11所示。

图11 查看关闭效果

观察效果

通过展示表结构信息，如果发现其中包含/*!99990 800220201 COMPRESSED=xxxx */的注释内容，可认为该表中的某些字段已使用字段压缩特性，例如：

mysql> show create table t1\G
*************************** 1. row ***************************
Table: t1
Create Table: CREATE TABLE `t1` (
`c1` varchar(100) /*!99990 800220201 COMPRESSED=ZLIB */ DEFAULT NULL,
`c2` varchar(100) /*!99990 800220201 COMPRESSED=ZLIB */ DEFAULT NULL,
`c3` varchar(100) /*!99990 800220201 COMPRESSED=ZSTD */ DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
1 row in set (0.00 sec)

利用系统视图information_schema.columns查询压缩字段，执行如下SQL语句，

select TABLE_SCHEMA, TABLE_NAME, COLUMN_NAME, EXTRA from information_schema.columns where extra like '%compressed%';

查看当前所有的字段压缩列信息，结果如图12所示：

图12 通过系统视图查询压缩字段

通过查询status信息，来确认字段压缩/解压缩接口的实际调用次数。例如，在将参数设置为rds_column_compression_threshold=20之后，对上述t1表进行插入数据以及查询数据操作，执行如下SQL语句，

show global status like '%column%compress%';

观察压缩/解压缩接口调用情况，结果如图13所示：

图13 查看压缩/解压缩接口调用情况

在表数据占用的存储空间较大时，可以通过查看监控界面信息来对比压缩前后存储占用大小，用于确认压缩效果。

5．总结

为了验证字段压缩的应用效果，通过构造两种场景来进行对比实验。

场景一如下所示。表中有1万行数据，每行数据是由400个MD5函数返回的32位字符串构成。

CREATE TABLE `random_data` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`data` longtext,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

DELIMITER $$
CREATE PROCEDURE `generate_random_data`()
BEGIN
DECLARE i INT DEFAULT 1;
DECLARE j INT DEFAULT 1;
DECLARE str longtext;
WHILE i <= 10000 DO
SET j = 1;
SET str = '';
WHILE j <= 400 DO
SET str = CONCAT(str, MD5(RAND()));
SET j = j + 1;
END WHILE;
INSERT INTO `random_data` (`data`) VALUES (str);
SET i = i + 1;
END WHILE;
END$$
DELIMITER ;

场景二如下所示，通过sysbench导入64张表，每张表包含1000万行数据，其中c和pad字段的数据类型被更改为varchar。

CREATE TABLE `sbtest1` (
`id` int NOT NULL AUTO_INCREMENT,
`k` int NOT NULL DEFAULT '0',
`c` varchar(120) COLLATE utf8mb4_0900_bin NOT NULL DEFAULT '',
`pad` varchar(60) COLLATE utf8mb4_0900_bin NOT NULL DEFAULT '',
PRIMARY KEY (`id`),
KEY `k_1` (`k`)
) ENGINE=InnoDB AUTO_INCREMENT=10000001 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_bin

通过将`rds_column_compression`参数分别设置为0（表示不压缩）和2（表示启用压缩），并在保持其他参数为默认值的情况下，我们在两种不同的场景进行了对比测试。结果显示，对于场景一，表压缩前后的存储大小比约为1.8，而场景二的这一比值则约为1.2，且压缩后的性能损耗最高在10%左右。

这表明，TaurusDB的字段压缩功能，不仅支持用户根据需求进行自选压缩算法等操作，实现细粒度的压缩策略调整，还能够自动识别并压缩符合条件的字段，从而在减少存储成本的同时，避免了对业务语句的大量修改，极大地方便了用户对特定字段进行高效压缩存储，具有较好的实际应用价值。

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/17233380

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

BladeDISC++：Dynamic Shape AI 编译器下的显存优化技术

近年来，随着深度学习技术的迅猛发展，越来越多的模型展现出动态特性，这引发了对动态形状深度学习编译器(Dynamic Shape AI Compiler)的广泛关注。本文将介绍阿里云 PAI 团队近期发布的 BladeDISC++项目，探讨在动态场景下如何优化深度学习训练任务的显存峰值，主要内容包括以下三个部分： Dynamic Shape 场景下显存优化的背景与挑战 BladeDISC++的创新解决方案 Llama2 模型的实验数据分析本文内容来自NeurIPS WorkShop 2024 论文：BladeDISC++: Memory Optimizations Based On Symbolic Shape 一、背景与挑战动态形状深度学习编译器的挑战随着模型架构的不断演进，其动态性日益增强。例如，传统的计算机视觉（CV）模型中，图像尺寸和批量大小（batch size）在训练过程中会不断变化；大型语言模型的序列长度和批量大小也呈动态调整状态；多模态模型中的图像、视频长度及序列长度同样变化不定。此外，一些更为复杂的混合专家（MoE）模型还涉及与数据相关的动态形状，这些都体现了模型...

2025-01-17

397

作者：王建伟（正己） 12 月 11 日，OpenAI 旗下 AI 聊天机器人平台 ChatGPT、视频生成工具 Sora 及其面向开发人员的 API 自太平洋时间下午 3 点左右起发生严重中断，耗费约三个小时才顺利恢复所有服务。 OpenAI 在事后报告中写道，"该问题源自新部署的遥测服务，此项服务无意间压垮了 Kubernetes 控制平面，导致关键系统发生连锁故障。引发事故的根本原因就是新的遥测服务配置意外在大规模集群中产生了大量 Kubernetes API 负载，导致控制平面不堪重负并破坏了基于 DNS 的服务发现能力。" 可见，即使如实力强大的 OpenAI，面对复杂 Kubernetes 架构，也不能很好处理 Kubernetes 服务发现和控制面解耦的问题。造成这个问题的关键原因在于容器调度和业务关键服务发现链路耦合在一起，互相干扰，Kubernetes 控制面故障影响了业务服务发现链路。那么，Kubernetes 体系下应如何选择服务发现系统，进一步提升业务稳定性呢？笔者认为，大型业务的服务发现系统应该具备高可靠性，高可伸缩性，高性能及高可维护性等特点，采用独立服务...

2025-01-17

348

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

解读TaurusDB字段压缩：减少存储成本，避免语句大量修改

1. 技术背景

2．特性价值

3．实现原理

4 业务场景/流程

4.1 特性参数

4.2 使用

5．总结

BladeDISC++：Dynamic Shape AI 编译器下的显存优化技术

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

相关文章

发表评论

资源下载

Nacos

Spring

Sublime Text

WebStorm

欢迎您来访！