MySQL 添加主键可以节省磁盘空间吗？-低调大师

MySQL 添加主键可以节省磁盘空间吗？

2024-03-04 390

MySQL 表定义主键不是必须的，并且直到今天（MySQL 版本 8.3.0）都是这样。不过，在 MGR 和 PXC 架构中不允许使用没有主键的表。如果数据表没有主键，会有许多众所周知的负面性能影响，其中最痛苦的是复制速度很糟糕。

今天，我想快速说明一下 需要使用主键的另一个原因：磁盘空间！

创建一个非常简单的示例表：

mysql > show create table test1\G
*************************** 1. row ***************************
       Table: test1
Create Table: CREATE TABLE `test1` (
  `a` int NOT NULL,
  `b` bigint DEFAULT NULL,
  KEY `a` (`a`),
  KEY `b` (`b`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
1 row in set (0.00 sec)

填充 10M 测试行，需要 748M 磁盘空间。现在，假设我的测试表的 a 列具有唯一值：

mysql > select count(*) from test1;
+----------+
| count(*) |
+----------+
| 10000000 |
+----------+
1 row in set (1.34 sec)

mysql > select count(DISTINCT(a)) from test1;
+--------------------+
| count(DISTINCT(a)) |
+--------------------+
|           10000000 |
+--------------------+
1 row in set (5.25 sec)

下面我将把索引类型更改为主键：

mysql > alter table test1 add primary key(a), drop key a;
Query OK, 0 rows affected (48.90 sec)
Records: 0 Duplicates: 0 Warnings: 0

mysql > show create table test1\G
*************************** 1. row ***************************
       Table: test1
Create Table: CREATE TABLE `test1` (
  `a` int NOT NULL,
  `b` bigint DEFAULT NULL,
  PRIMARY KEY (`a`),
  KEY `b` (`b`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
1 row in set (0.00 sec)

结果，该表被重新创建，其磁盘大小减少到 588M，非常显着！

为什么会发生这种情况？我们拥有完全相同的数据，并且在两种情况下都对两列都建立了索引！让我们检查一下更改前后该表的更多详细信息。

之前，在没有主键的情况下，当两列都通过辅助键建立索引时，我们可以看到以下内容：

mysql > select SPACE,INDEX_ID,i.NAME as index_name, t.NAME as table_name, CLUST_INDEX_SIZE, OTHER_INDEX_SIZE from information_schema.INNODB_INDEXES i JOIN information_schema.INNODB_TABLESPACES t USING(space) JOIN information_schema.INNODB_TABLESTATS ts WHERE t.NAME=ts.NAME AND t.NAME='db1/test1'\G
*************************** 1. row ***************************
           SPACE: 50
        INDEX_ID: 232
      index_name: a
      table_name: db1/test1
CLUST_INDEX_SIZE: 24699
OTHER_INDEX_SIZE: 22242
*************************** 2. row ***************************
           SPACE: 50
        INDEX_ID: 231
      index_name: b
      table_name: db1/test1
CLUST_INDEX_SIZE: 24699
OTHER_INDEX_SIZE: 22242
*************************** 3. row ***************************
           SPACE: 50
        INDEX_ID: 230
      index_name: GEN_CLUST_INDEX
      table_name: db1/test1
CLUST_INDEX_SIZE: 24699
OTHER_INDEX_SIZE: 22242
3 rows in set (0.00 sec)

竟然还有第三个索引！通过 innodb_ruby 工具可以更详细地查看每个索引，可以看到它的大小是最大的（id=230）：

$ innodb_space -f msb_8_3_0/data/db1/test1.ibd space-indexes
id      name  root        fseg        fseg_id     used        allocated   fill_factor
230           4           internal    3           27          27          100.00%    
230           4           leaf        4           24634       24672       99.85%      
231           5           internal    5           21          21          100.00%    
231           5           leaf        6           12627       12640       99.90%      
232           6           internal    7           13          13          100.00%    
232           6           leaf        8           9545        9568        99.76%

这就是 InnoDB 引擎的工作原理；如果没有定义明确的主键，它将添加一个名为的内部主键 GEN_CLUST_INDEX。由于它包含整个数据行，因此其大小开销非常大。

将二级索引替换为显式主键后，就不再需要隐藏索引了。因此，我们总共剩下两个索引：

mysql > select SPACE,INDEX_ID,i.NAME as index_name, t.NAME as table_name, CLUST_INDEX_SIZE,OTHER_INDEX_SIZE from information_schema.INNODB_INDEXES i JOIN information_schema.INNODB_TABLESPACES t USING(space) JOIN information_schema.INNODB_TABLESTATS ts WHERE t.NAME=ts.NAME AND t.NAME='db1/test1'\G
*************************** 1. row ***************************
           SPACE: 54
        INDEX_ID: 237
      index_name: b
      table_name: db1/test1
CLUST_INDEX_SIZE: 23733
OTHER_INDEX_SIZE: 13041
*************************** 2. row ***************************
           SPACE: 54
        INDEX_ID: 236
      index_name: PRIMARY
      table_name: db1/test1
CLUST_INDEX_SIZE: 23733
OTHER_INDEX_SIZE: 13041
2 rows in set (0.01 sec)

$ innodb_space -f msb_8_3_0/data/db1/test1.ibd space-indexes
id      name  root        fseg        fseg_id     used        allocated   fill_factor
236           4           internal    3           21          21          100.00%    
236           4           leaf        4           20704       23712       87.31%      
237           5           internal    5           17          17          100.00%    
237           5           leaf        6           11394       13024       87.48%

GEN_CLUST_INDEX vs GIPK

每个 InnoDB 表都有一个聚集键，因此不定义聚集键不会节省任何磁盘空间，有时甚至相反，如上所示。因此，即使有问题的表中没有任何现有列是唯一的，最好还是添加另一个唯一列作为主键。内部 GEN_CLUST_INDEX 不暴露给 MySQL 上层，只有 InnoDB 引擎知道它，因此对于复制速度来说没有用处。因此，显式主键始终是更好的解决方案。

但是，如果由于遗留应用程序问题而无法添加新的主键列，建议使用不可见的主键（GIPK）来当作主键。这样，您将获得性能优势，同时对应用程序是不可见的。

mysql > set sql_require_primary_key=1;
Query OK, 0 rows affected (0.00 sec)

mysql > create table nopk (a int);
ERROR 3750 (HY000): Unable to create or change a table without a primary key, when the system variable 'sql_require_primary_key' is set. Add a primary key to the table or unset this variable to avoid this message. Note that tables without a primary key can cause performance problems in row-based replication, so please consult your DBA before changing this setting.

mysql > set sql_generate_invisible_primary_key=1;
Query OK, 0 rows affected (0.00 sec)

mysql > create table nopk (a int);
Query OK, 0 rows affected (0.02 sec)

mysql > show create table nopk\G
*************************** 1. row ***************************
       Table: nopk
Create Table: CREATE TABLE `nopk` (
  `my_row_id` bigint unsigned NOT NULL AUTO_INCREMENT /*!80023 INVISIBLE */,
  `a` int DEFAULT NULL,
  PRIMARY KEY (`my_row_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
1 row in set (0.00 sec)

mysql > select * from nopk;
+------+
| a    |
+------+
|  100 |
+------+
1 row in set (0.00 sec)

因此，我们的应用程序根本不知道新列。但如果需要，我们仍然可以使用它，例如，轻松地将表读取或写入分成可预测的块：

mysql > select my_row_id,a from nopk;
+-----------+------+
| my_row_id | a    |
+-----------+------+
|         1 |  100 |
+-----------+------+
1 row in set (0.00 sec)

请注意，对于缺少主键的架构，在强制执行变量 sql_require_primary_key 之前，最好首先启用 sql_generate_invisible_primary_key 并使用逻辑备份和恢复重新创建数据。简单的表优化不会增加不可见主键。无论如何，对于遗留的应用来说，拥有不可见主键（GIPK）应该是一个双赢的解决方案。

更多技术文章，请访问：https://opensource.actionsky.com/

关于 SQLE

SQLE 是一款全方位的 SQL 质量管理平台，覆盖开发至生产环境的 SQL 审核和管理。支持主流的开源、商业、国产数据库，为开发和运维提供流程自动化能力，提升上线效率，提高数据质量。

SQLE 获取

类型	地址
版本库	https://github.com/actiontech/sqle
文档	https://actiontech.github.io/sqle-docs/
发布信息	https://github.com/actiontech/sqle/releases
数据审核插件开发文档	https://actiontech.github.io/sqle-docs/docs/dev-manual/plugins/howtouse

微信关注我们

原文链接：https://my.oschina.net/actiontechoss/blog/11045797

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Elasticsearch：向量相似度计算 - 可笑的速度

作者：Chris Hegarty 任何向量数据库的核心都是距离函数，它确定两个向量的接近程度。这些距离函数在索引和搜索期间执行多次。当合并段或在图表中导航最近邻居时，大部分执行时间都花在比较向量的相似性上。对这些距离函数进行微观优化是值得的，我们已经从之前类似的优化中受益，例如参见 SIMD、FMA。随着 Lucene 和 Elasticsearch 最近对标量量化的支持，我们现在比以往任何时候都更加依赖这些距离函数的 byte 变体。根据之前的经验，我们知道这些变体仍有显着性能改进的潜力。目前的状况当我们利用巴拿马向量 API 来加速 Lucene 中的距离函数时，大部分注意力都集中在 float（32 位）变体上。我们对这些方面所取得的性能改进感到非常满意。然而，字节（8 位）变体的改进有点令人失望 - 相信我，我们尝试过！字节变体的根本问题是它们没有充分利用 CPU 上可用的最佳 SIMD 指令。在 Java 中进行算术运算时，最窄的类型是 int（32位）。 JVM 自动将字节值符号扩展为 int 类型的值。考虑这个简单的标量点积实现： int d...

2024-03-04

461

0 前言机票查询系统，日均亿级流量，要求高吞吐，低延迟架构设计。提升缓存的效率以及实时计算模块长尾延迟，成为制约机票查询系统性能关键。本文介绍机票查询系统在缓存和实时计算两个领域的架构提升。 1 机票搜索服务概述 1.1 机票搜索的业务特点机票搜索业务：输入目的地，然后点击搜索，后台就开始卷了。基本1~2s将最优结果反给用户。这个业务存在以下业务特点。 1.1.1 高流量、低延时、高成功率超高流量，同时，对搜索结果要求也很高——成功率要高，不能查询失败或强说成功，希望能反给用户最优最新数据。 1.1.2 多引擎聚合，SLA不一机票搜索数据来源哪？很大一部分来源自己的机票运价引擎。为补充产品丰富性，还引入国际一些GDS、SLA，如联航。将外部引擎和自己引擎结果聚合后发给用户。 1.1.3 计算密集&IO密集大家可能意识到，我说到我们自己的引擎就是基于一些运价的数据、仓位的数据，还有其他一些航班的信息，我们会计算、比对、聚合，这是一个非常技术密计算密集型的这么一个服务。同时呢，外部的GDS提供的查询接口或者查询引擎，对我们来说又是一个IO密集型的子系统。我们的搜索服务要将...

2024-03-04

416

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。