高性能MySQL之基础架构-低调大师

高性能MySQL之基础架构

2019-08-08 590

高性能MySQL之基础架构
一、背景
为什么我们需要先学习MYSQL的基础架构先呢？

原因很简单，当我们需要了解一件事物的时候，我们只有站在宏观的层面，才能层层剥丝抽茧的去理解问题。举个例子，我们要看一个框架的源码，一开始就想进去研究，却发现找不着北，原因很简单，因为我们没有鸟瞰全貌，我们根本不知道入口在哪里。因此我们学习MYSQL的时候也是这样。先从高纬度理解问题，最后看到里面有哪些组件，一层层的拆解，这样让我们对mysql有更深入的理解。废话不多说，我们先看总体的逻辑架构图，如下所示。

二、Mysql总体逻辑架构

从图中不难看出，不同的存储引擎共用一个Server层，也就是从连接器到执行器的部分。可以看到Server层包括连接器、查询缓存、分析器、优化器、执行器等，涵盖MySQL的大多数核心服务功能，以及所有的内置函数（如日期、时间、数学和加密函数等），所有跨存储引擎的功能都在这一层实现，比如触发器、视图等。

需要主意的是存储引擎层负责数据的存储和提取。其架构模式是插件式的，支持InnoDB、MyISAM、Memory等多个存储引擎。现在最常用的存储引擎是InnoDB，它从MySQL 5.5.5版本开始成为了默认存储引擎。这也说明了你create table建表的时候，如果不指定引擎类型，默认使用的就是InnoDB。当然你也可以指定存储引擎，例如create table语句中使用engine=memory, 来指定使用内存引擎创建表。接下来我们一个一个看各个组件的各自作用以及一条sql在整个架构的执行流程。

二、连接器
当我们要执行 select * from T where ID=1；这条语句的时候，首先当然是连接器帮我们负责跟客户端建立连接，获取权限、位置和管理连接。连接命令如下：

mysql -h$ip -P$port -u$user -p
输完命令之后，接下来就是经典的TCP握手了，连接器就要开始认证你的身份，这个时候用的就是你输入的用户名和密码。虽然密码也可以直接跟在-p后面写在命令行中，但这样可能会导致你的密码泄露。如果你连的是生产服务器，前往不要这么做，这是生产上的禁忌。如果用户名密码认证通过，连接器会到权限表里面查出你拥有的权限。之后，这个连接里面的权限判断逻辑，都将依赖于此时读到的权限。这就意味着，一个用户成功建立连接后，即使你用管理员账号对这个用户的权限做了修改，也不会影响已经存在连接的权限。修改完成后，只有再新建的连接才会使用新的权限设置。

如果你连接完成后，未来的一段时间里，你没做任何操作，这个连接就处于空闲的状态，你可以通过show processlist命令中看到它，如下所示：

客户端如果太长时间没动静，连接器就会自动将它断开。这个时间是由参数wait_timeout控制的，默认值是8小时。

如果在连接被断开之后，客户端再次发送请求的话，就会收到一个错误提醒： Lost connection to MySQL server during query。这时候如果你要继续，就需要重连，然后再执行请求了。

数据库建立连接的过程通常是比较复杂的，使用中尽量减少连接的动作，也就是尽量使用长连接。因为长连接是指连接成功后，如果客户端持续有请求，则一直使用同一个连接。短连接则是指每次执行完很少的几次查询就断开连接，下次查询再重新建立一个，这样造成开销很大。

但是你会发现全部使用长连接后，有些时候MySql占用的内存会飙涨的很快。这是由于MySql在执行的过程中临时使用的内存是管理在连接对象里面的。这些资源会在连接断开的时候才释放。所以如果长连接累积下来，可能导致内存占用太大，被系统强行杀掉（OOM），从现象看就是MySql异常重启了。

那么如何解决这种现象呢？主要有两种方案

1.定期断开长连接。使用一段时间，或者程序里面判断执行过一个占用内存的大查询后，断开连接，之后要查询再重连。

2.如果你使用的版本是mysql 5.7以后的版本，可以在执行一个较大的操作后，通过执行mysql_reset_connection来重新初始化连接资源。这个过程不需要重连和重新做权限验证，但是会将连接恢复到刚刚创建完时的状态。

三.查询缓存
连接建立完成后，就可以执行select语句去查询了，这时候执行逻辑就走到第二步：查询缓存。MYSQL拿到一个请求的时候，会先去缓存看有没有这个这条语句的执行结果，之前执行过的语句以及结果会以key-value 的形式缓存在内存中，当然，key就是sql语句了，value 就是之前的执行结果。如果语句不在查询缓存中，就会继续后面的执行阶段。执行完成后，执行结果会被存入查询缓存中。你可以看到，如果查询命中缓存，MySQL不需要执行后面的复杂操作，就可以直接返回结果，这个效率会很高。

但是大多数情况下，强烈不建议你去使用查询缓存，这时候你们肯定会想，为什么不用呀，这不是挺好的呀？

原因一： cache 的访问由一个单一的全局锁来控制，这时候大量的查询将被阻塞，直至锁释放。所以不要简单认为设置 cache 必定会带来性能提升。

原因二：这是因为只要有对一个表的更新，这个表上所有的查询缓存都会被清空。这时候就会造成查询缓存的失效非常频繁，你费了很大劲地把结果存起来，还没使用呢，就被一个更新全清空了。对于更新压力大的数据库来说，查询缓存的命中率会非常低。除非你的业务就是有一张静态表，很长时间才会更新一次。比如，一个系统配置表，那这张表上的查询才适合使用查询缓存。

mysql还是很人性化的，你以根据你的要去使用查询缓存，你可以将参数query_cache_type设置成DEMAND，这样对于默认的SQL语句都不使用查询缓存。而对于你确定要使用查询缓存的语句，可以用SQL_CACHE显式指定，sql例子如下所示：

mysql> select SQL_CACHE * from T where ID=10；
最近我去官网看了mysql 8.0的改变，这个查询功能整块被删掉了，也就是8.0以后的版本都没有这个功能了。

四.分析器
如果没有命中查询缓存，就要开始真正执行语句了。首先，MySQL需要对SQL语句做解析，分析器先会词法分析，mysql需要识别出你这条sql语句字符串里面的字符串分别是什么，代表什么意思。

比如，mysql会根据你输入的select这个关键字识别出来，这是一个查询语句，把“T”识别成表明T，把ID识别成列ID。接着就是进行语法分析了，根据词法分析的结果，语法分析器会根据语法规则，判断你输入的这个SQL语句是否满足MySQL语法。如果你的语法错误，就会报出如下错误：

ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'elect * from t where ID=1' at line 1
一般语法错误会提示第一个出现错误的位置，所以关注的是紧接“use near”的内容。

五.优化器
经过了分析器后，在执行之前，还需要经过优化器的处理，为什么还需优化器呢？因为优化器是在表里面有多个索引的时候，决定使用哪个索引；或者在一个语句有多表关联（join）的时候，决定各个表的连接顺序。比如你执行下面这样的语句，这个语句是执行两个表的join：

mysql> select * from T1 join T2 using(ID) where T1.A=1 and T2.B=2;
这条语句既可以先从表T1里面取出A=1的记录的ID值，再根据ID值关联到表T2，再判断T2里面d的值是否等于2。也可以先从表T2里面取出B=2的记录的ID值，再根据ID值关联到T1，再判断T1里面A的值是否等于1。虽然最终执行的结果是一样的，但是执行效率却有很大的不同。再比如优化器是怎么选择索引的，例子如下：

SELECT C FROM T WHERE A= 'value1' AND B = 'value2';
假设 A上的扫描了 100 个数据行，B 上扫描 50个数据行，而同时进行的测试只得到了 50个数据行。

先根据A会有100个数据行，接着进行匹配找到其中的 30 个与 B 中的值匹配记录，其中就有 70 次是失败了。

先根据 B会有 50 个数据行，接着进行匹配找到其中的 30 个与 A中的值匹配的记录，只有 20次是失败的，很显然需要的计算和磁盘 I/O 更少。

其结果是，优化器会先选择B索引，因为这样做开销更小。而优化器的作用就是决定选择使用哪一个方案。

因此MySQL 的优化器主要干如下几个重要的事情：

1、选择最合适的索引；
2、选择表扫还是走索引；
3、选择表关联顺序；
4、优化 where 子句；
5、排除管理中无用表；
6、决定 order by 和 group by 是否走索引；
7、尝试使用 inner join 替换 outer join；
8、简化子查询，决定结果缓存；
9、合并试图；

六.执行器
经过优化器知道了该怎么做，于是就进入了执行器阶段，开始执行语句。开始执行的时候，要先判断一下你对这个表T有没有执行查询的权限，如果没有，就会返回没有权限的错误，如下所示。

select * from T where ID=1;

ERROR 1142 (42000): SELECT command denied to user 'b'@'localhost' for table 'T'
如果有权限，就继续往下执行，这时候执行器就会根据表的引擎定义，去使用这个引擎提供的接口。

这条语句在执行器的执行流程如下：

调用InnoDB引擎接口取这个表的第一行，判断ID值是不是1，如果不是则跳过，如果是则将这行存在结果集中；

调用引擎接口取“下一行”，重复相同的判断逻辑，直到取到这个表的最后一行。

执行器将上述遍历过程中所有满足条件的行组成的记录集作为结果集返回给客户端。

至此，这个语句就执行完成了。对于有索引的表，执行的逻辑也差不多。第一次调用的是“取满足条件的第一行”这个接口，之后循环取“满足条件的下一行”这个接口，这些接口都是引擎中已经定义好的。你会在数据库的慢查询日志中看到一个rows_examined的字段，表示这个语句执行过程中扫描了多少行。这个值就是在执行器每次调用引擎获取数据行的时候累加的。

在有些场景下，执行器调用一次，在引擎内部则扫描了多行，因此引擎扫描行数跟rows_examined并不是完全相同的。我们后面会专门有一篇文章来讲存储引擎的内部机制，里面会有详细的说明。

三. 实战巩固
执行了这个语句 select * from T where k=1, 必然会报“不存在这个列”的错误： “Unknown column ‘k’ in ‘where clause’”。让我闷想一下这是上面哪个阶段报出来的呢？

答案：很明显是分析器阶段，因为词法分析的时候会解析出查询的表，列等等，所以此时就应该能知道表列的存在性。而且从我个人的拙见来看，如果先一步判断出这种无法查询的错误，避免后续执行，则可以避免无谓的性能开销。而表列的数据较少，完全可以这里判断。
原文地址https://www.cnblogs.com/huangjuncong/p/11318810.html

微信关注我们

原文链接：https://yq.aliyun.com/articles/713422

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

方舟编译器源代码疑似曝光，华为李小龙：来自服务器部门？

前几天，赶在华为开发者大会开幕前几天，华为已经在官方社区正式公布了方舟编译器的安装详情以及下载地址。官方介绍称，方舟编译器是基于GCC开发的交叉编译器套件，它包括了C、C++、Fortran的前端，也包括了这些语言的库（如libstdc++、libgcc等）。HCC运行在X86 linux架构服务器上，生成的二进制运行在Aarch64架构服务器上。来源：tsuki链接：https://www.zhihu.com/question/338350284 引起争议后，华为手机产品线副总裁李小龙在微博上对“GCC套皮说”进行了辟谣，他表示：「这个网站不是华为消费者BG维护的网站，此编译器好像是服务器部门用的，和我们之前和P30一起发布的方舟编译器没有任何关系。」链接：https://www.zhihu.com/question/338350284/answer/776111129 华为副总裁在微博说这是另一个 BG 的同名产品。那我们继续等待几天后真正的方舟编译器吧。原答案：下载页的开始称方舟编译器叫 HCC：我们从标注着源码下载的链接这里，下载传说中的方舟编译器：下载下来的 t...

2019-08-08

801

在国际权威调研机构IDC发布的《2017中国企业网盘市场份额》报告中，联想企业领跑行业，位列第一。这是继2018年5月中国知名调研机构艾瑞发布《中国企业网盘行业发展白皮书》后，联想企业网盘再一次荣膺企业网盘市场份额第一的殊荣。 IDC报告指出，依托云计算、大数据、人工智能等技术，企业数字化转型变革步入快车道，越来越多的企业开始重视对自身数字资产的保护和利用，而企业网盘成为它们解决存储、安全、协作办公等一系列问题的首选方案。IDC预测，在这样的形势下，中国企业网盘软件市场在未来5年仍然会保持高速增长。作为行业实力的代言人，多年来联想企业网盘保持着业绩的持续增长，深受企业用户好评，在行业范围内不断巩固自己的领先地位，这不仅源于敏锐的市场洞察和深刻的客户感知，更源于公司十年砥砺前行、在产品技术方面的坚守与信仰。产品设计源于用户痛点联想企业网盘深耕行业十余年，深知用户企业文件管理和文件协作之痛，从产品设计出发，基于企业业务生态协同、企业产品生态协同、全生命周期安全管理和融合IT架构四个理念，打造智能文件协同平台：通过打通企业内部各个系统之间业务生态协同，实现“应用围着数据转”，降低文件的管...

2019-08-08

800

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。