前言
早期MySQL AB公司在2009年10亿美元卖给了sun公司,然而不幸的是sun在2010年被Oracle收购了,而sun被Oracle收购的时候,而很多人都知道Oracle都是把竞争对手收下来打入冷宫,不再销售,这是它一惯的手法了,虽然承诺5年内不会对MySQL下手,但5年很快就过去了。
MySQL的原作者在sun被Oracle收购了之后就另立门户,在MySQL的基础上提供了另外一个分支,就是MariaDB,Maria是作者的小女儿,所以以作者的小女儿的名字命名的数据;MariaDB在兼容MySQL的基础上还整合了开源社区中很强大的支持力量,而percona公司致力于MySQL的优化,而且还取得了不扉的成绩的一个组织,percona在改进早期的InnoDB的基础上提供了增强版的xtradb,这是增强版的InnoDB,而MariDB中用的就是xtradb还不再是InnoDB了,此外MariaDB中还引入了像MyISAM的增强版、改进版,所以MariaDB在存储引擎上可能在着不小的差异,但这种差异是在前面的基础上进化而来的,所以MySQL的知识依然适用于MariaDB,总的来说,MariaDB比MySQL有过之而无不及。
SQL:Structure Query Language 结构查询语言
DDL(数据定义语言):CREATE, DROP, ALTER
DML(数据操纵语言):SELECT, INSERT, UPDATE,
DCL(数据控制语言):GRANT, REVOKE
所谓关系型模型:就是二维关系结构,有所谓的行和列组成的表,一张或多张表组合起来的数据库。
MySQL在内部是如何工作的:
第一层:这一层是负责跟用户请求进行连接的,每个客户端连接都会在这层上拥有一个线程,mysql是单进程多纯种模型的,mysql的线程有很多种类型,一类是负责跟用户连接的叫连接线程,另一类是不断的把缓冲池中的数据同步的磁盘中去的叫刷写线程,甚至不同的存储引擎背后还维持着多种线程,所以mysql的线程有很多种,那么负责跟用户建立连接的我们通常叫作连接线程。
mysql支持的并发连接数是有限的,因为我们的资源是有限的,mysql尤其是MariaDB在对线程管理时是通过线程池(thread pool)来实现的,其实很多基于线程的机制都是基于线程池来管理的,mysql在启动时会在池子中创建一些空闲的线程,当用户请求到来时就会使用这些空闲的线程接收用户的请求,来一个用户连接给他一个线程,当mysql的连接达到上限时,新进来的连接就要排队,mysql或MariaDB维持有一个队列,前面处理的线程一旦完成了线程就会空闲下来了,空闲下来的线程不会被销毁,而是把里面的数据清理一下,还原成原来的样子,再接收新的用户请求,所以mysql的这种机制就叫线程重用。
而在客户端跟mysql服务器端连接时要通过mysql协议建立通信,mysql这个协议一般来讲有两种格式,http协议是文件格式的,而https是二进制的,所以我们的协议就是这两种格式,然而mysql协议这两个格式的协议都支持,但是二进制格式的协议要高效一些,所以支持两种格式的默认都是二进制格式的,mysql协议默认是明文的,而二进制其实就是通过二进制编码之后的格式而,如果用一个反编码工具就很容易就破解了这种格式的数据,所以数据不安全,这们我们就引入加密了,将他的协议基于ssl加密后发送。
第二层:MySQL的解析,Parser是个解析器,也叫分析器,他的主要功能就是分析查询语句的,首先要做词法分析,要把select语句切割成一片片的片段,再做语法分析,看看整个句子有没有语法错误,甚至还要做语意分析,这些都是由分析器来完成的,当然mysql并没有开发自己的分析器,yacc,lex,mysql直接借用了这些分析器做二次开发并整合到mysql中去的,分析器就是分析语句确保语句没有问题、还有请求权限也没有问题,接着分析完了之后交给优化器(Optimizer)做优化了,优化器所要做的操作包括重写查询,如果查询语句不够好就会被重写,把语句重构建一下,但返回的结果一定是一样的,优化器还包括决定表的读取顺序,如果我们做多表查询的话就要有个先后顺序了,如果你写的查询语句的先后是A,B,C,但优化器认为B,A,C更高效,于是优化器就会调整表的读取顺序的,另外一个如果我们在多张表上查询时有多个索引,优化器也会从中选择一个开销最小的索引,但是优化器也是可以接受用户建议的,如果我们知道怎么写可以让查询语句更优秀,那我们就尽可能写的优秀来影响人优化器。
mysql在查询时到底有没有用到索引并且用到了什么样的索引是可以用一个语句做分析的,叫explain,所以explain是我们将来去做mysql语句优化或者做查看mysql是否能够按照我们预设的目的去使用索引的一个非常重要的分析工具,当然explain的结果也只是参考
第三层:优化器并不关心mysql底层那个张真正使用什么存储引擎的,但是我们知道,存储引擎根据他的工作特性的不同提供的性能表现也不相同,但好在优化器会通过向存储引擎的API发起调用请求让存储引擎返回这个存储引擎下所对应的表的统计数据来判断这个张的查询开销有多大,并基于此作为判断,所以说Optimizer可以跟存储引擎交互,并利用存储引擎内部的统计数据做出优化决策的,这里我们说的是广义上的查询,UPDATE,INSERT,DELETE,这些都要查询,而如果是真正的查询语句的话mysql还可以使用Query Cache来发挥功效的,所以Query Cache只对我们的select语句有效,只有select才会被缓存下来。
SQL Layer 中包含了多个子模块,下面我将逐个做一下简单的介绍:
逻辑模块组成
1 、初始化模块
顾名思议,初始化模块就是在MySQL Server启动的时候,对整个系统做各种各样的初始化操作,比如各种 buffer,cache 结构的初始化和内存空间的申请,各种系统变量的初始化设定,各种存储引擎的初始化设置,等等。
2 、核心 API
核心 API 模块主要是为了提供一些需要非常高效的底层操作功能的优化实现,包括各种底层数据结构的实现,特殊算法的实现,字符串处理,数字处理等,小文件 I/O ,格式化输出,以及最重要的内存管理部分。核心 API 模块的所有源代码都集中在 mysys 和 strings文件夹下面,有兴趣的读者可以研究研究。
3 、网络交互模块
底层网络交互模块抽象出底层网络交互所使用的接口 api ,实现底层网络数据的接收与发送,以方便其他各个模块调用,以及对这一部分的维护。所有源码都在 vio 文件夹下面。
4 、 Client & Server 交互协议模块
任何 C/S 结构的软件系统,都肯定会有自己独有的信息交互协议, MySQL 也不例外。 MySQL的 Client & Server 交互协议模块部分,实现了客户端与 MySQL 交互过程中的所有协议。
当然这些协议都是建立在现有的 OS 和网络协议之上的,如 TCP/IP 以及 Unix Socket 。
5 、用户模块
用户模块所实现的功能,主要包括用户的登录连接权限控制和用户的授权管理。他就像MySQL 的大门守卫一样,决定是否给来访者 “ 开门 ” 。
6 、访问控制模块
造访客人进门了就可以想干嘛就干嘛么?为了安全考虑,肯定不能如此随意。这时候就需要访问控制模块实时监控客人的每一个动作,给不同的客人以不同的权限。访问控制模块实现的功能就是根据用户模块中各用户的授权信息,以及数据库自身特有的各种约束,来控制用户对数据的访问。用户模块和访问控制模块两者结合起来,组成了 MySQL 整个数据库系统的权限安全管理的功能。
7 、连接管理、连接线程和线程管理
连接管理模块负责监听对 MySQL Server 的各种请求,接收连接请求,转发所有连接请求到线程管理模块。每一个连接上 MySQL Server 的客户端请求都会被分配(或创建)一个连接线程为其单独服务。而连接线程的主要工作就是负责 MySQL Server 与客户端的通信,接受客户端的命令请求,传递 Server 端的结果信息等。线程管理模块则负责管理维护这些连接线程。包括线程的创建,线程的 cache 等。
8 、 Query 解析和转发模块
在 MySQL 中我们习惯将所有 Client 端发送给 Server 端的命令都称为 query ,在 MySQ LServer 里面,连接线程接收到客户端的一个 Query 后,会直接将该 query 传递给专门负责将各种 Query 进行分类然后转发给各个对应的处理模块,这个模块就是 query 解析和转发模块。其主要工作就是将 query 语句进行语义和语法的分析,然后按照不同的操作类型进行 分类,然后做出针对性的转发。
9 、 Query Cache 模块
Query Cache 模块在 MySQL 中是一个非常重要的模块,他的主要功能是将客户端提交给MySQL 的 Select 类 query 请求的返回结果集 cache 到内存中,与该 query 的一个 hash 值做一个对应。该 Query 所取数据的基表发生任何数据的变化之后, MySQL 会自动使该 query 的Cache 失效。在读写比例非常高的应用系统中, Query Cache 对性能的提高是非常显著的。当然它对内存的消耗也是非常大的。
10 、 Query 优化器模块
Query 优化器,顾名思义,就是优化客户端请求的 query ,根据客户端请求的 query 语句,和数据库中的一些统计信息,在一系列算法的基础上进行分析,得出一个最优的策略,告诉后面的程序如何取得这个 query 语句的结果。
11 、表变更管理模块
表变更管理模块主要是负责完成一些 DML 和 DDL 的 query ,如: update , delte , inse rt ,create table , alter table 等语句的处理。
12 、表维护模块
表的状态检查,错误修复,以及优化和分析等工作都是表维护模块需要做的事情。
13 、系统状态管理模块
系统状态管理模块负责在客户端请求系统状态的时候,将各种状态数据返回给用户, 像DBA 常用的各种 show status 命令, show variables 命令等,所得到的结果都是由这个模块返回的。
14 、表管理器
这个模块从名字上看来很容易和上面的表变更和表维护模块相混淆,但是其功能与变更及维护模块却完全不同。大家知道,每一个 MySQL 的表都有一个表的定义文件,也就是 *.f rm文件。表管理器的工作主要就是维护这些文件,以及一个 cache ,该 cache 中的主要内容是各个表的结构信息。此外它还维护 table 级别的锁管理。
15 、日志记录模块
日志记录模块主要负责整个系统级别的逻辑层的日志的记录,包括error log , binar ylog , slow query log 等。
16 、复制模块
复制模块又可分为 Master 模块和 Slave 模块两部分, Master 模块主要负责在Replication 环境中读取 Master 端的 binary 日志,以及与 Slave 端的 I/O 线程交互等工 作。Slave 模块比 Master 模块所要做的事情稍多一些,在系统中主要体现在两个线程上面。一个是负责从 Master 请求和接受 binary 日志,并写入本地 relay log 中的 I/O 线程。另外 一个是负责从 relay log 中读取相关日志事件,然后解析成可以在 Slave 端正确执行并得到和Master 端完全相同的结果的命令并再交给 Slave 执行的 SQL 线程。
17 、存储引擎接口模块
存储引擎接口模块可以说是 MySQL 数据库中最有特色的一点了。目前各种数据库产品中,基本上只有 MySQL 可以实现其底层数据存储引擎的插件式管理。这个模块实际上只是一个抽象类,但正是因为它成功地将各种数据处理高度抽象化,才成就了今天 MySQL 可插拔存储引擎的特色。
了解到整个处理过程之后,我们可以将以上各个模块的关系图:
各模块工作配合
在了解了 MySQL 的各个模块之后,我们再看看 MySQL 各个模块间是如何相互协同工作 的 。接下来,我们通过启动 MySQL ,客户端连接,请求 query ,得到返回结果,最后退出,这样一整个过程来进行分析。
当我们执行启动 MySQL 命令之后, MySQL 的初始化模块就从系统配置文件中读取系统 参数和命令行参数,并按照参数来初始化整个系统,如申请并分配 buffer ,初始化全局变量 ,以及各种结构等。同时各个存储引擎也被启动,并进行各自的初始化工作。当整个系统初始化结束后,由连接管理模块接手。连接管理模块会启动处理客户端连接请求的监听程序,包括 tcp/ip 的网络监听,还有 unix 的 socket 。这时候,MySQL Server 就基本启动完成,准备好接受客户端请求了。
当连接管理模块监听到客户端的连接请求(借助网络交互模块的相关功能),双方通过Client & Server 交互协议模块所定义的协议 “ 寒暄 ” 几句之后,连接管理模块就会将连接请求转发给线程管理模块,去请求一个连接线程。
线程管理模块马上又会将控制交给连接线程模块,告诉连接线程模块:现在我这边有连接请求过来了,需要建立连接,你赶快处理一下。连接线程模块在接到连接请求后,首先会检查当前连接线程池中是否有被 cache 的空闲连接线程,如果有,就取出一个和客户端请求连接上,如果没有空闲的连接线程,则建立一个新的连接线程与客户端请求连接。当然, 连接线程模块并不是在收到连接请求后马上就会取出一个连接线程连和客户端连接,而是首先通过调用用户模块进行授权检查,只有客户端请求通过了授权检查后,他才会将客户端请求和负责请求的连接线程连上。
在 MySQL 中,将客户端请求分为了两种类型:一种是 query ,需要调用 Parser 也就是Query 解析和转发模块的解析才能够执行的请求;一种是 command ,不需要调用 Parser 就可以直接执行的请求。如果我们的初始化配置中打开了 Full Query Logging 的功能,那么Query 解析与转发模块会调用日志记录模块将请求写入日志,不管是一个 Query 类型的请求还是一个 command 类型的请求,都会被记录进入日志,所以出于性能考虑,一般很少打开 FullQuery Logging 的功能。
当客户端请求和连接线程 “ 互换暗号(互通协议) ” 接上头之后,连接线程就开始处理客户端请求发送过来的各种命令(或者 query ),接受相关请求。它将收到的 query 语句转给 Query 解析和转发模块, Query 解析器先对 Query 进行基本的语义和语法解析,然后根据命令类型的不同,有些会直接处理,有些会分发给其他模块来处理。
如果是一个 Query 类型的请求,会将控制权交给 Query 解析器。 Query 解析器首先分 析看是不是一个 select 类型的 query ,如果是,则调用查询缓存模块,让它检查该 query 在query cache 中是否已经存在。如果有,则直接将 cache 中的数据返回给连接线程模块, 然后通过与客户端的连接的线程将数据传输给客户端。如果不是一个可以被 cache 的 query类型,或者 cache 中没有该 query 的数据,那么 query 将被继续传回 query 解析器,让 qu ery解析器进行相应处理,再通过 query 分发 器分发给相关处理模块。
如果解析器解析结果是一条未被 cache 的 select 语句,则将控制权交给 Optimizer ,也就是 Query 优化器模块,如果是 DML 或者是 DDL 语句,则会交给表变更管理模块,如果是一些更新统计信息、检测、修复和整理类的 query 则会交给表维护模块去处理,复制相关 的query 则转交给复制模块去进行相应的处理,请求状态的 query 则转交给了状态收集报告模块。实际上表变更管理模块根据所对应的处理请求的不同,是分别由 insert 处理器、 delete处理器、 update 处理器、 create 处理器,以及 alt er 处理器这些小模块来负责不同的 DML和 DDL 的。
在各个模块收到 Query 解析与分发模块分发过来的请求后,首先会通过访问控制模块检查连接用户是否有访问目标表以及目标字段的权限,如果有,就会调用表管理模块请求相 应的表,并获取对应的锁。表管理模块首先会查看该表是否已经存在于 table cache 中,如 果已经打开则直接进行锁相关的处理,如果没有在 cache 中,则需要再打开表文件获取锁, 然后将打开的表交给表变更管理模块。
当表变更管理模块 “ 获取 ” 打开的表之后,就会根据该表的相关 meta 信息,判断表的存储引擎类型和其他相关信息。根据表的存储引擎类型,提交请求给存储引擎接口模块, 调用对应的存储引擎实现模块,进行相应处理。
不过,对于表变更管理模块来说,可见的仅是存储引擎接口模块所提供的一系列 “ 标准 ”接口,底层存储引擎实现模块的具体实现,对于表变更管理模块来说是透明的。他只需要 调用对应的接口,并指明表类型,接口模块会根据表类型调用正确的存储引擎来进行相应的处理。
当一条 query 或者一个 command 处理完成(成功或者失败)之后,控制权都会交还给连接线程模块。如果处理成功,则将处理结果(可能是一个 Result set ,也可能是成功或者失败的标识)通过连接线程反馈给客户端。如果处理过程中发生错误,也会将相应的错误信息发送给客户端,然后连接线程模块会进行相应的清理工作,并继续等待后面的请求,重复上面提到的过程,或者完成客户端断开连接的请求。
如果在上面的过程中,相关模块使数据库中的数据发生了变化,而且 MySQL 打开了 bin-log 功能,则对应的处理模块还会调用日志处理模块将相应的变更语句以更新事件的形式记录到相关参数指定的二进制日志文件中。
在上面各个模块的处理过程中,各自的核心运算处理功能部分都会高度依赖整个 MySQL的核心 API 模块,比如内存管理,文件 I/O ,数字和字符串处理等等。
1、客户端与服务器端的交互永远是通过协议来完成的,这里的就是mysql协议,无论是通过API的方式,还是通过专用库的方式,必然要通过客户端和服务器端的连接建立,并且将所有的查询需求发送给服务器端,服务器端mysql通过他的工作方式,单进程多线程模型,服务器端将会使用一个线程来接收客户端的请求。
2、等服务器端接收到客户端所发来的查询语句后,首先会在服务器内部或本地检查缓存是否命中,如果缓存命中,就立即将结果返回给客户端,如果查询缓存是没有找到相对应的缓存,那这个查询过程是白白消耗掉的,所以使用缓存的标准应该在资源开销的3成以上,缓存并非都是必要的、也并非缓存存在在有效,因为它也占用资源开销的
3、如果缓存没有命中,将由缓存交给解析器,解析器负责解析之后将会交给解析树的工具,在必要的情况下解析树配合预处理器进行解析,解析完这后就会有多个路径,而后优化器将会选择开销最小的一条路进行下一步操作,进而将改写后的结果交给查询计划,其实就是交给查询执行引擎的,而mysql数据库又是多用户连接的,而我们的查询引擎只有一个,如果交给查询引擎的查询很多的话那就要排队的,在队列中,但查询引擎并不能到磁盘中去读取数据,取数据都是从表中取出来的、而表默认都是存储在磁盘中的,所以查询执行引擎仅仅是将优化器选择好了的查询语句转换成查询引擎的API调用,调用的是相对应的存储引擎,存储引擎根据查询执行引擎的API调用获取对方所需求的数据,将数据返回给执行引擎,再层层返回给客户端。
缓存与否也是可以被判断的,而我们写查询语时也可以明确指定是否需要缓存,当然,指定缓存也未必就可以缓存,只是我们定义某些查询语句期望被缓存。
Mysql SQL_MODE:SQL模型常用的有三种,SQL模型简单来讲就是定义MySQL的工作机制的,像上面说超出了字符长度是截取呢还是不让插入,这需要我们定义,这种模型还可以在一定的程度上模拟其它数据库的工作特性的。mysql默认使用空模式
TRADITIONAL:表示使用传统模式
STRICT_TRANS_TABLES:仅对支持事物的表使用严格模式
STRICT_ALL_TABLES:对所有表都使用严格模式,严格模式就是当超出字符时就不允许插入数据了
mysql> SHOW GLOBAL VARIABLES LIKE 'sql_mode';查看当前数据中使用哪种模式
设定服务器变量的值:常用仅用于支持动态的变量,并非所有的服务器的变量的值都可以设定
支持修改的服务器变量有两类:
动态变量:可以在mysql运行时修改
静态变量:于配置文件中修改其值,并重启后方能生效
修改服务器变量:服务器变量从其作用或生效范围来讲,有两类:
全局变量:mysql全局设定,或者服务器级别,修改之后不会立即生效,仅对新建立的会话有效。
会话变量:会话级别,仅对当前会话有效,退出后即失效。
会话建立时,从全局继承各变量
查看服务器变量:以下是查看服务器变量的三种方法
1
2
3
4
5
6
7
8
9
|
mysql > show{GLOBAL|SESSION} VARIABLES [LIKE ‘’];
mysql > SELECT @@{GLOBAL|SESSION}.VARLABLE_NAME;
mysql >
select
* from information_schema.global_variables where variables_name=’SOME_VARIABLES_NAME’;
修改全局变量仅管理员有权限,或者被授权,大多数普通用户仅能够修改会话变量
mysql >
set
SQL_MODE=’’;设置sql_mode模块是否记用
mysql >
set
{GLOBAL|SESSION} VARIABLE_NAME=’VALUE’;
mysql > show table status like ‘t3’ \G:查看某表上的存储引擎相关信息
mysql > show engines;显示当前服务器上的存储引擎
MariaDB [
test
]>CREATE TABLE t1 (Name VARCHAR(30) NOT NULL, Age TINYINT UNSIGNED NOTNULL,PRIMARY KEY(Name,Age)) ENGINE=
'InnoDB'
;创建表t1,指定表的存储引擎为InnoDB
|
注意:无论是全局还是会话级别的动态变量修改,在重启mysql后都会失效,想永久有效,可定义有配置文件中相应段中[mysqld]
MYSQL中字符大小写的问题:
1、SQL关键字及函数名不区分字符大小写,但为了提高缓存的命中率,习惯最好要统一;
2、数据库、表及视图名称在大小写区分与与否取决于低层OS及FS;
3、存储过程、存储函数及事件调度器的名字不区分大小写,但触发器区分大小写;
4、表的别名是区分字符大小写的;
5、String values,对字段中的数据,如果字段类型为Binary类型,则区分大小写;非Binary不区分大小写;
结束
整理了一下有关MySQL的一些基础理论知识以及工作原理,都是文字,长篇大论的,不过认真看来还是比较基础的,由于时间问题,如有做得不到之处还望多多指点。