mysql高级

1、索引

  1. 索引的定义:索引(index)是帮助MySQL高效获取数据的数据结构(有序)
  2. 索引优势劣势
    优势
    1) 类似于书籍的目录索引,提高数据检索的效率,降低数据库的IO成本。 2) 通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗。 劣势
    1) 实际上索引也是一张表,该表中保存了主键与索引字段,并指向实体类的记录,所以索引列也是要占用空间的。
    2) 虽然索引大大提高了查询效率,同时却也降低更新表的速度,如对表进行INSERT、UPDATE、DELETE。因为更新表时,MySQL 不仅要保存数据,还要保存一下索引文件每次更新添加了索引列的字段,都会调整因为更新所带来的键值变化后的索引信息。
  3. 索引结构
    索引是在MySQL的存储引擎层中实现的,而不是在服务器层实现的。
    常见的索引: BTREE 索引HASH 索引R-tree 索引(空间索引)Full-text (全文索引)
    我们平常所说的索引,如果没有特别指明,都是指B+树(多路搜索树,并不一定是二叉的)结构组织的索引。其中聚集索引、复合索引、前缀索引、唯一索引默认都是使用 B+tree 索引,统称为索引。
  4. BTREE 结构
    BTree又叫多路平衡搜索树,以5叉BTree为例,key的数量:公式推导[ceil(m/2)-1] <= n <= m-1。所以 2 <= n <=4 。当n>4时,中间节点分裂到父节点,两边节点分裂。

BTREE树 和 二叉树 相比, 查询数据的效率更高, 因为对于相同的数据量来说,BTREE的层级结构比二叉树小,因此搜索速度快。

  1. B+Tree结构
    B+Tree与BTree的区别为:
    1). n叉B+Tree最多含有n个key,而BTree最多含有n-1个key。 2). B+Tree的叶子节点保存所有的key信息,依key大小顺序排列。 3). 所有的非叶子节点都可以看作是key的索引部分。

由于B+Tree只有叶子节点保存key信息,查询任何key都要从root走到叶子。所以B+Tree的查询效率更加稳定。

  1. MySQL中的B+Tree MySql索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上,增加一个指向相邻叶子节点的链表指针,就形成了带有顺序指针的B+Tree,提高区间访问的性能。
  2. 索引分类
    1) 单值索引 :即一个索引只包含单个列,一个表可以有多个单列索引
    2) 唯一索引 :索引列的值必须唯一,但允许有空值
    3) 复合索引 :即一个索引包含多个列
  3. 索引语法
    1)创建索引 create [unique \fulltext \spatial ] index 新建索引名 on 表名(索引字段);
    2)查看索引 show index from 索引名; show index from 索引名\G; <!--以另一种形式显示-->
    3)删除索引
    dorp index 索引名 on 表名 ;
  4. alter命令
    1). alter table tb_name add primary key(column_list); --该语句添加一个主键,这意味着索引值必须是唯一的,且不能为NULL 2). alter table tb_name add unique index_name(column_list); --这条语句创建索引的值必须是唯一的(除了NULL外,NULL可能会出现多次) 3). alter table tb_name add index index_name(column_list); --添加普通索引, 索引值可以出现多次。 4). alter table tb_name add fulltext index_name(column_list); --该语句指定了索引为FULLTEXT, 用于全文索引
  5. 索引设计原则
    对查询频次较高,且数据量比较大的表建立索引。 索引字段的选择,最佳候选列应当从where子句的条件中提取,如果where子句中的组合比较多,那么应当挑选最常用、过滤效果最好的列的组合。 使用唯一索引,区分度越高,使用索引的效率越高。 索引可以有效的提升查询数据的效率,但索引数量不是多多益善,索引越多,维护索引的代价自然也就水涨船高。对于插入、更新、删除等DML操作比较频繁的表来说,索引过多,会引入相当高的维护代价,降低DML操作的效率,增加相应操作的时间消耗。另外索引过多的话,MySQL也会犯选择困难病,虽然最终仍然会找到一个可用的索引,但无疑提高了选择的代价。 使用短索引,索引创建之后也是使用硬盘来存储的,因此提升索引访问的I/O效率,也可以提升总体的访问效率。假如构成索引的字段总长度比较短,那么在给定大小的存储块内可以存储更多的索引值,相应的可以有效的提升MySQL访问索引的I/O效率。 利用最左前缀,N个列组合而成的组合索引,那么相当于是创建了N个索引,如果查询时where子句中使用了组成该索引的前几个字段,那么这条查询SQL可以利用组合索引来提升查询效率。

2、 索引的使用

索引是数据库优化最常用也是最重要的手段之一, 通过索引通常可以帮助用户解决大多数的MySQL的性能优化问题。

  1. 避免索引失效
    1). 全值匹配 ,对索引中所有列都指定具体值。 该情况下,索引生效,执行效率高。
    2). 最左前缀法则 如果索引了多列,要遵守最左前缀法则。指的是查询从索引的最左前列开始,并且不跳过索引中的列。
    3). 范围查询右边的列,不能使用索引 。
    4). 不要在索引列上进行运算操作, 否则索引将失效。
    5). 字符串不加单引号,造成索引失效。
    6). 尽量使用覆盖索引,避免select *
    尽量使用覆盖索引(只访问索引的查询(索引列完全包含查询列)),减少select * 。
    7). 用or分割开的条件, 如果or前的条件中的列有索引,而后面的列中没有索引,那么涉及的索引都不会被用到。
    8). 以%开头的Like模糊查询,索引失效。
    如果仅仅是尾部模糊匹配,索引不会失效。如果是头部模糊匹配,索引失效。
    解决方案 :通过覆盖索引来解决
    9). 如果MySQL评估使用索引比全表更慢,则不使用索引。
    10). is NULL , is NOT NULL 有时索引失效。
    11). in 走索引, not in 索引失效。
  2. 单列索引和复合索引
    尽量使用复合索引,而少使用单列索引 。
    单列索引的时候,如果根据这三个条件去查询,数据库会选择一个最优的索引(辨识度最高索引)来使用,并不会使用全部索引
  3. 查看索引使用情况
    show status like 'Handler_read%';--查看当前会话的索引使用情况
    show global status like 'Handler_read%';--查看全局的索引使用情况

2、视图

  1. 简单讲:视图是一张虚拟的表里面封装了一条select语句。
  2. 视图相对普通表来说的优势:
    简单:使用视图的用户完全不需要关心后面对应的表的结构、关联条件和筛选条件,对用户来说已经是过滤好的复合条件的结果集。 安全:使用视图的用户只能访问他们被允许查询的结果集,对表的权限管理并不能限制到某个行某个列,但是通过视图就可以简单的实现。 数据独立:一旦视图的结构确定了,可以屏蔽表结构变化对用户的影响,源表增加列对视图没有影响;源表修改列名,则可以通过修改视图来解决,不会造成对访问者的影响。
  3. 视图语法
    创建视图:CREATE [OR REPLACE] [ALGORITHM = {UNDEFINED | MERGE | TEMPTABLE}] VIEW view_name [(column_list)] AS select_statement [WITH [CASCADED | LOCAL] CHECK OPTION] 修改视图:ALTER [ALGORITHM = {UNDEFINED | MERGE | TEMPTABLE}]
    VIEW view_name [(column_list)]
    AS select_statement
    [WITH [CASCADED | LOCAL] CHECK OPTION]
    查看视图: SHOW TABLES;
    show create view city_country_view \G;
    删除视图:DROP VIEW [IF EXISTS] view_name [, view_name] ...[RESTRICT 1 | CASCADE];

3、 存储过程和函数

  1. 存储过程和函数是事先经过编译并存储在数据库中的一段 SQL 语句的集合
  2. 存储过程和函数的区别在于函数必须有返回值,而存储过程没有。
  3. 创建存储过程
    CREATE PROCEDURE procedure_name ([proc_parameter[,...]]) begin -- SQL语句 end ;
  4. Mysql的默认分隔符是分号;
    需要使用一个命令来定义一个新的分隔符:DELIMITER
    eg delimiter $
  5. 调用存储过程
    call procedure_name();
  6. 查看存储过程
    --查询db_name数据库中的所有的存储过程 select name from mysql.proc where db='db_name'; --例子: select name from mysql.proc where db='demo_01';
    --查询存储过程的状态信息 show procedure status;
    --查询某个存储过程的定义 show create procedure pro_test1 \G;
  7. 删除存储过程
    drop procedure if exists pro_test1;

3、Mysql锁的问题

  1. 锁:锁是计算机协调多个进程或线程并发访问某一资源的机制(避免争抢资源)。
  2. 锁的分类:
    从对数据操作的粒度分 :
    1) 表锁:操作时,会锁定整个表。 2) 行锁:操作时,会锁定当前操作行。
    从对数据操作的类型分: 1) 读锁(共享锁):针对同一份数据,多个读操作可以同时进行而不会互相影响。
    2) 写锁(排它锁):当前操作没有完成之前,它会阻断其他写锁和读锁。
  3. Mysql锁 ,不同的存储引擎支持不同的锁机制。
    MyISAM 支持表级锁(默认) ,不支持行级锁,不支持页面锁。
    InnoDB 支持表级锁 ,支持行级锁(默认),不支持页面锁。
    表级锁偏向MyISAM,开销小,加锁快,不会出现死锁,锁定力度大,发生锁冲突的的概率最高,并发度最低。
    行级锁偏向InnoDB,开销大,加锁慢,会出现死锁,锁定力度小,发生锁冲突的的概率最低,并发度最高。
  4. MyISAM的读写锁:读锁会阻塞写,但是不会阻塞读。而写锁,则既会阻塞读,又会阻塞写。
  5. InnoDB 与 MyISAM 的最大不同有两点:一是支持事务;二是 采用了行级锁。(支持事务的原因主要也是增加了行级锁)
  6. InnoDB 实现了以下两种类型的行锁:
    共享锁(S):又称为读锁,简称S锁,共享锁就是多个事务对于同一数据可以共享一把锁,都能访问到数据,但是只能读不能修改。 排他锁(X):又称为写锁,简称X锁,排他锁就是不能与其他锁并存,如一个事务获取了一个数据行的排他锁,其他事务就不能再获取该行的其他锁,包括共享锁和排他锁,但是获取排他锁的事务是可以对数据就行读取和修改。
    对于UPDATE、DELETE和INSERT语句,InnoDB会自动给涉及数据集加排他锁(X); 对于普通SELECT语句,InnoDB不会加任何锁;
  7. 无索引行锁升级为表锁
  8. 间隙锁危害
    当我们用范围条件,而不是使用相等条件检索数据,并请求共享或排他锁时,InnoDB会给符合条件的已有数据进行加锁; 对于键值在条件范围内但并不存在的记录,叫做 "间隙(GAP)" , InnoDB也会对这个 "间隙" 加锁,这种锁机制就是所谓的 间隙锁
  9. InnoDB总结
    InnoDB存储引擎由于实现了行级锁定,虽然在锁定机制的实现方面带来了性能损耗可能比表锁会更高一些,但是在整体并发处理能力方面要远远由于MyISAM的表锁的。当系统并发量较高的时候,InnoDB的整体性能和MyISAM相比就会有比较明显的优势。 但是,InnoDB的行级锁同样也有其脆弱的一面,当我们使用不当的时候,可能会让InnoDB的整体性能表现不仅不能比MyISAM高,甚至可能会更差。(变成表锁、间歇锁)
  10. InnoDB优化建议
    1) 尽可能让所有数据检索都能通过索引来完成,避免无索引行锁升级为表锁。 2)合理设计索引,尽量缩小锁的范围 3)尽可能减少索引条件,及索引范围,避免间隙锁 4)尽量控制事务大小,减少锁定资源量和时间长度 5)尽可使用低级别事务隔离(但是需要业务层面满足需求)

4、SQL优化

  1. 优化大批量插入数据 对于 InnoDB 类型的表,有以下几种方式可以提高导入的效率: 1) 主键顺序插入 2) 关闭唯一性校验 3) 手动提交事务
  2. 优化insert语句 1)将多条插入语句整合成一条 2)在事务中进行数据插入。(关闭自动提交事务) 3)数据有序插入
  3. 优化order by语句 两种排序方式: 1)通过对返回数据进行排序,也就是通常说的 filesort 排序,所有不是通过索引直接返回排序结果的排序都叫 FileSort 排序。 2)通过有序索引顺序扫描直接返回有序数据,这种情况即为 using index,不需要额外排序,操作效率高。
    了解了MySQL的排序方式,优化目标就清晰了:尽量减少额外的排序,通过索引直接返回有序数据。where 条件和Order by 使用相同的索引,并且Order By 的顺序和索引顺序相同, 并且Order by 的字段都是升序,或者都是降序。否则肯定需要额外的操作,这样就会出现FileSort。
  4. Filesort 的优化 通过创建合适的索引,能够减少 Filesort 的出现,但是在某些情况下,条件限制不能让Filesort消失,那就需要加快 Filesort的排序操作。对于Filesort , MySQL 有两种排序算法:

1) 两次扫描算法 :MySQL4.1 之前,使用该方式排序。首先根据条件取出排序字段和行指针信息,然后在排序区sort buffer 中排序,如果sort buffer不够,则在临时表 temporary table 中存储排序结果。完成排序之后,再根据行指针回表读取记录,该操作可能会导致大量随机I/O操作。

2)一次扫描算法:一次性取出满足条件的所有字段,然后在排序区 sort buffer 中排序后直接输出结果集。排序时内存开销较大,但是排序效率比两次扫描算法要高。

MySQL 通过比较系统变量 max_length_for_sort_data 的大小和Query语句取出的字段总大小, 来判定是否那种排序算法,如果max_length_for_sort_data 更大,那么使用第二种优化之后的算法;否则使用第一种。

可以适当提高 sort_buffer_size 和 max_length_for_sort_data 系统变量,来增大排序区的大小,提高排序的效率。

  1. 优化group by 语句 由于GROUP BY 实际上也同样会进行排序操作,而且与ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数,那么还需要一些聚合函数的计算。所以,在GROUP BY 的实现过程中,与 ORDER BY 一样也可以利用到索引。 如果查询包含 group by 但是用户想要避免排序结果的消耗, 则可以执行order by null 禁止排序。
  2. 优化嵌套查询 Mysql4.1版本之后,开始支持SQL的子查询。这个技术可以使用SELECT语句来创建一个单列的查询结果,然后把这个结果作为过滤条件用在另一个查询中。使用子查询可以一次性的完成很多逻辑上需要多个步骤才能完成的SQL操作,同时也可以避免事务或者表锁死,并且写起来也很容易。但是,有些情况下,子查询是可以被更高效的连接(JOIN)替代。 连接(Join)查询之所以更有效率一些 ,是因为MySQL不需要在内存中创建临时表来完成这个逻辑上需要两个步骤的查询工作。
  3. 优化OR条件 对于包含OR的查询子句,如果要利用索引,则OR之间的每个条件列都必须用到索引 , 而且不能使用到复合索引; 如果没有索引,则应该考虑增加索引。 虽然id主键和age都是由索引的,但是age上面的是复合索引,使用or的时候,复合索引就失效了。建议使用 union 替换 or , UNION 要优于 OR 。
  4. 优化分页查询 1)在索引上完成排序分页操作,最后根据主键关联回原表查询所需要的其他列内容。 2)该方案适用于主键自增的表,可以把Limit 查询转换成某个位置的查询 。如果主键自增,但是主键数据有断层的话,也是不合适的。