MySQL的index merge(索引合并）导致数据库死锁分析与解决方案 | 京东云技术团队

2023-10-13 423

背景

在DBS-集群列表-更多-连接查询-死锁中，看到9月22日有数据库死锁日志，后排查发现是因为mysql的优化-index merge（索引合并）导致数据库死锁。

定义

index merge(索引合并)：该数据库查询优化的一种技术，在mysql 5.1之后进行引入，它可以在多个索引上进行查询，并将结果合并返回。

mysql数据库的锁机制

在排查问题之前，首先讲一下mysql数据库的锁机制：

1 加锁的基本单位是 next-key lock（记录锁+间隙锁），当记录锁或者间隙锁能够解决幻读的问题，就会退化为记录锁（行锁），间隙锁。

2 加锁是将锁加在了索引之上，而不是数据之上。

3 对于当前读，索引进行加锁，当前读语句包括了（select ... from. ... for update,select...from ..... lock in share mode,update...,delete....）。

4 加锁根据唯一性索引、非唯一性索引进行了区分，根据查询条件分为了等值查询、范围查询，根据是否能够查到数据又分为了记录存在和不存在的情况。

本次死锁问题使用的索引是非唯一性索引的等值查询中记录存在的情况，因此本文仅仅详细介绍这种情况，其它情况可以查看最下面的参考文档1：

加锁情况是：会依次扫描，首先扫描到条件匹配的数据，加一个next-key lock，然后接下来扫描到第一个记录不匹配的数据，增加一个间隙锁，最后对查到记录的主键增加一个记录锁，

针对以上情况加了三种锁，加锁的目的是为了防止幻读的发生。

针对二级索引的锁进行分析：

表结构：

CREATE TABLE `jdi_roster_apply_detail` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键',
  `apply_id` varchar(100) NOT NULL COMMENT '申请单号',
  `status` tinyint(10) NOT NULL COMMENT '状态',
  PRIMARY KEY (`id`),
  KEY `idx_status` (`status`),
  KEY `idx_apply_id` (`apply_id`)
) ENGINE=InnoDB AUTO_INCREMENT=984483 DEFAULT CHARSET=utf8 COMMENT='黑白名单申请单明细'

表数据：

id	apply_id	status
959651	1695369220522068998	1
960738	1695369227576173690	1
961319	1695373047673903326	1
961365	1695373122447865228	1

通过 idx_apply_id建立的b+树：

因为索引是二级索引，所以叶子节点存储的数据是主键值。

执行sql:

select * from jdi_roster_apply_detail where apply_id='1695369227576173690' for update

执行数据扫描过程

1 查到符合条件的记录，增加next-key 锁，因此锁是(1695369220522068998,1695369227576173690]

2 找到第一个不符合记录的数据增加间隙锁，因此锁是（1695369227576173690，1695373047673903326）

3 对符合条件的主键索引增加记录锁，因此对 id=960738，增加记录锁。

针对三种锁解决的幻读：

1 如果没有第一条的next-key锁，另一个事务增加一个apply_id=1695369227576173690， id<960738 时，该事务在进行查询时，会多一条记录，因此会造成幻读。

2 如果没有第二条的间隙锁，另一个事务增加一个apply_id=1695369227576173690， id>960738是，该事务在进行查询时，会多一条记录，因此会造成幻读。

3 如果没有第三条的记录锁，另一条事务删除一条 id=960738的记录，该事务进行查询时，会少一条数据，因此会造成幻读。

实际问题分析

数据库死锁日志

以上日志两个事务分别执行了update语句：

#事务1
update jdi_roster_apply_detail set `status` = 10 where `status` = 1 and apply_id = '1695369220522068998'
#事务2
update jdi_roster_apply_detail set `status` = 10 where `status` = 1 and apply_id = '1695369227576173690'

这个sql是用于将某个申请单id待审批的数据改为已审批。

因为在泰山里不能执行update语句，因此执行了select语句查看用的索引情况：

explain select * from  jdi_roster_apply_detail  where `status` = 1 and apply_id = '1695369220522068998'

执行的结果：

通过结果可以看出两个update语句都使用了两个索引，分别是idx_status，idx_apply_id，然后将查到的结果进行合并，因此在模拟的过程中，可以将其拆成两个查询语句。

死锁模拟

事务1	事务2	锁的范围
begin	begin
select * from jdi_roster_apply_detail where apply_id = '1695369220522068998' for update		idx_apply_id所以锁住了（-∞，1695369220522068998]，(1695369220522068998,1695369227576173690) 主键id索引锁住了 id=959651
	select * from jdi_roster_apply_detail where apply_id = '1695369227576173690' for update	idx_apply_id所以锁住了（1695369220522068998，1695369227576173690]，(1695369227576173690,1695373047673903326) 主键id索引锁住了 id=960738
select * from jdi_roster_apply_detail where status = 1 for update		会对idx_status上加next-key锁和间隙锁，但是在对主键959651，960738，961319，961365进行加记录锁时，其中事务2 对960738已经加了记录锁，所以该事务1进行了阻塞。
	select * from jdi_roster_apply_detail where status = 1 for update	会对idx_status上加next-key锁和间隙锁，但是在对主键959651，960738，961319，961365进行加记录锁时，其中事务1对959651已经加了记录锁，所以该事务2进行了阻塞。
	deadlock

两个事务分别想要两个主键id的记录锁，造成相互等待，形成了死锁。

以上是先执行idx_apply_id的索引查询再执行idx_status索引查询，如果先执行idx_status索引查询，再执行idx_apply_id的索引查询，也会因为主键的记录锁造成死锁。

解决方案

1 利用force index(idx_apply_id)强制走某个索引，这样InnoDB就会忽略index merge，避免多个索引同时加锁的情况。

2 禁用Index Merge，用命令禁用Index Merge：SET GLOBAL optimizer_switch='index_merge=off,index_merge_union=off,index_merge_sort_union=off,index_merge_intersection=off';

3 Index Merge同时使用了2个独立索引，因此新建一个包含这两个索引所有字段的联合索引，这样InnoDB就只会走这个单独的联合索引。

第三种方案相较于第一种查询性能更好，相对于第二种仅仅作用于该表，影响范围小，因此本次也是采用了该方案。

总结

该死锁问题是因为优化器使用了合并索引问题导致的，最终通过新建一个联合索引来解决这个问题。

参考文档：

1 https://www.xiaolincoding.com/mysql/lock/how_to_lock.html

作者：京东工业李小辉

来源：京东云开发者社区转载请注明来源

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/10117355

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

以效率为导向：用ChatGPT和HttpRunner实现敏捷自动化测试（二） | 京东云技术团队

1、前言在上一篇文章：利用ChatGPT提升测试工作效率——测试工程师的新利器(一)中，我们提到了如何通过chatGPT生成单接口测试用例，然后再让chatGPT去根据测试用例去生成接口自动化脚本。本篇文章将详细讲解一下我们团队内部在遇到业务痛点时如何利用Httprunner框架进行接口自动化测试的。当最近邂逅chatGPT后又是如何将二者结合起来，实现"敏捷"自动化测试的。首先业务测试面对的痛点就是在商业化Devops产品在交付过程中，不同的客户现场和公司内部存在各种各样的环境还有各种国产化系统，并行多个客户交付，多版本需要进行回归测试。如果在有限的人力资源下，通过测试人员人工进行回归的化可能就会不能按时按点完成交付。如何快速的实现接口自动化辅助回归，经过团队内部选型，根据快速性，灵活性，易用性最终选择了HttpRunner框架。最终实现了能在不同的客户现场环境，当运维人员部署完成环境后能够快速实现基本功能回归测试，大大减少了测试人员的回归时间。接下来详细讲一下我们是如何使用Httprunner通过“点”，“改”，“查”这三板斧进行接口自动化测试的。点就是通过在web前端进行...

2023-10-13

403

本文分享自华为云社区《【安全攻防】深入浅出实战系列专题-XXE攻击》，作者： MDKing。 1 基本概念 XML基础：XML 指可扩展标记语言（Extensible Markup Language)，是一种与HTML类似的纯文本的标记语言，设计宗旨是为了传输数据，而非显示数据。是W3C的推荐标准。 XML标签：XML被设计为具有自我描述性，XML标签是没有被预定义的，需要自行定义标签与文档结构。如下为包含了标题、发送者、接受者、内容等信息的xml文档。 DTD：指文档类型定义(Document Type Definition)，通过定义根节点、元素（ELEMENT）、属性（ATTLIST）、实体（ENTITY）等约束了xml文档的内容按照指定的格式承载数据。如下图，通过<!DOCTYPE 根节点名称 [DTD内容]>的规则指定了该xml文件合法的根节点元素为persons，它的子节点元素为person，以及person的子层元素以及属性。（另外：可通过<!DOCTYPE 根节点名称 SYSTEM "DTD文件名">的方式引入外部的DTD定义文件）实体...

2023-10-13

423

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。