平时我们在使用数据库的时候,看到的通常都是一个整体,对于我们来说是透明的。比如,我们有一个最简单的表,只有一个字段,在执行下面这个查询语句的时候:
1 | SELECT * FROM T WHERE id = 1; |
我们看到的只是输入一个语句,返回一条结果,却不知道MySQL在执行这条查询语句的时候,内部究竟做了哪些工作,具体流程是什么样的。
今天我们就把MySQL拆解下,看看究竟有哪些组成部分,分别又有什么功能,提供什么服务,让我们对MySQL有更深入的了解。这样当我们遇到一些异常问题的时候就能够刨根问题,直戳本质,更快定位问题。
下面我画了一张MySQL的架构示意图,注明了各个零件的职能,可以看下,大概了解下SQL语句在MySQL内部的执行流程。
MySQL大体分为Server层与存储引擎层两部分。
Server层包括连接器、查询缓存、分析器、优化器、执行器,涵盖MySQL的大多数核心服务功能,以及所有内置函数,所有跨存储引擎的功能都在Server层实现,比如存储过程、触发器、视图等。
存储引擎层主要就是负责数据的存储和读写。采用插件式的架构模式,支持innodbDB、MyISAM、Memory等多个存储引擎。目前最常用的就是innoDB,从MySQL 5.5.5版本开始成为了默认的存储引擎。
现在我们走一遍整个执行流程,依次看下各个组件的作用。
连接器
第一步,我们会先连接到数据库,这个时候接待我们的就是连接器。连接器负责跟客户端建立连接、获取权限、维持管理连接。连接命令如下:
1 | mysql -h{$ip} -P{$port} -u{$user} -p |
输入命令回车后,就需要在交互对话中输入密码。
连接命令中的mysql是客户端工具,用来跟服务端建立连接。完成TCP握手后,连接器就开始认证客户端的身份,用的就是输入的用户名密码。
- 密码不正确,将会收到一个“Access denied for user”的错误,然后客户端程序结束执行。
- 密码认证通过,连接器会到权限表里查出当前连接拥有的权限,之后这个连接里的权限判断逻辑,都将依赖此时读取到的权限(这就意味着,一个用户成功建立连接后,及时管理员账号对这个用户的权限做了修改,也不会影响已经存在的连接的权限,修改完成后,只有新建的连接才会使用新的权限设置)。
连接完成后,我们可以使用SHOW processlist
命令看到连接,如下图:
客户端如果太长时间没有动静,连接器会自动断开连接,这个时间由参数wait_timeout
控制,默认8小时。
查询缓存
连接建立成功后,就可以执行SQL语句了,执行逻辑就来到了第二步:查询缓存。
MySQL拿到一个查询请求后,会先查询缓存,看之前是否有执行过这条语句,执行过的语句及结果可能会以key-value对的格式,直接缓存再内存中,如果查询语句刚好在缓存的key中,那么这个value会直接返回给客户端。
MySQL 8.0版本直接讲查询缓存功能删除了。
分析器
如果没有命中缓存,就需要开始真正的执行语句了。首先,MySQL需要知道你要做什么,因此需要对SQL语句进行解析。
分析器会先做“词法分析”。你的输入是由多个字符和空格组成的一条SQL语句,MySQL需要识别出里面的字符串分别是什么,代表什么。
MySQL从你输入的“select”这个关键字识别出来这是一个查询语句。它需要将字符串“T“识别成”表名T“,把字符串”id“识别成”列id“。
做完识别工作以后,就要开始做”词法分析“了。根据分析结果,判断你输入的SQL是否满足MySQL的语法。
如果语句语法不对,就会收到“You have an error in your SQL syntax”的错误提醒。如下图,select少了一个字母s:
优化器
经过分析器分析之后,MySQL已经知道我们需要做什么了。在开始执行之前,还需要经过优化器的处理。
优化器是在表里有多个索引的时候,决定使用哪个索引;或者在多表关联的时候,决定各个表的连接顺序。
有的时候执行方法的逻辑结果是一样的,但是执行晓磊会不同,优化器的作用就是决定使用哪个方案。
执行器
MySQL通过分析器知道了我们需要做什么,通过优化器知道了怎么做,接下来就进入执行阶段了,开始执行语句。
开始执行的时候,需要先判断下用户对这个表有没有查询权限,如果没有,就会返回没有权限的错误。
如果有权限,就打开表继续执行。打开表的时候,执行器会根据表的引擎定义,去使用这个引擎提供的接口。
比如我们例子中的表T,id字段没有索引,执行流程大概是这样的:
- 调用innoDB引擎接口去这个表的第一行,判断id是不是1,如果不是则跳过,如果是则将这行存在结果集中;
- 调用接口取下一行,重复相同判断逻辑,直到取到表的最后一行;
- 执行器将上述遍历过程中所有满足条件的行组成的记录集作为结果集返回给客户端。
至此,这个语句就执行完成了。
对于有索引的表,执行逻辑也差不多,第一次调用的是”满足条件的第一行“这个接口,之后循环调用”满足条件的下一行“这个接口,这些接口都是引擎中已经定义好的。