更新中。。。。。。。
#写在前面
mysql查询缓慢的原因有哪些?
1.查询语句是否请求了不必要的多余数据
2.
总结以上原因之后,优化数据库性能,就需从以下几个方面着手:
1.
说明:下面的知识为零散的记录,后期需要整理
一、Mysql优化
1.优化insert和update
1.1 批量插入:将多条要插入的数据合并成一条
- 合并后日志量(MySQL的binlog和innodb的事务让日志)减少了,降低日志刷盘的数据量和频率,从而提高效率;
- 通过合并SQL语句,减少网络传输的IO;
- 通过合并SQL语句,减少SQL语句解析的次数;
注意事项:数据库sql长度是有限制,sql长度过大会溢出报错。可通过max_allowed_packet配置修改,默认是1M
1.2 事务插入:在开始插入前开启事务,插入完的提交事务
- 进行一个INSERT操作时,MySQL内部会建立一个事务,在事务内才进行真正插入处理操作。通过使用事务可以减少创建事务的消耗;
注意事项:事务日志大小也有限制,过大会刷磁盘,导致性能下降。可通过innodb_log_buffer_size配置修改
1.3 主键顺序插入:前面插入数据和主键和后插入数据的主键是有序的
- 如果有序,新插入的记录直接定位在索引的最后面,索引的定位效率会很高,也且对索引调整也较小。
- 如果无序,新插入的记录可能要定位到索引中间,索引定位效率下降,而这时还需要B+tree进行分裂合并等处理,会消耗比较多计算资源,数据量较大时会有频繁的磁盘操作。
2. in 和 exsits的区别和效率
参考:
总结如下:
select a.* from A a where exists(select 1 from B b where a.id=b.id)
exists()适合B表比A表数据大的情况
select * from A where id in(select id from B)
in()适合B表比A表数据小的情况
2.not in 和not exists
如果查询语句使用了not in ,那么内外表都进行全表扫描,没有用到索引;而not extsts 的子查询依然能用到表上的索引。所以无论那个表大,用not exists都比not in要快。
3. 要建索引的MySQL字段尽量设置为NOT NULL
含有空值的列很难进行查询优化,而且表索引是不会存储NULL值的,所以如果索引的字段可以为NULL,索引的效率会下降很多。
因为它们使得索引、索引的统计信息以及比较运算更加复杂。
你应该用0、一个特殊的值或者一个空串代替空值。
4.负向查询不能使用索引
反例:select name from user where id not in (1,3,5);
正例:select name from user where id in (2,4,6);
5. 前导模糊查询不能使用索引
反例:select name from user where name like '%zhang ’
正例:select name from user where name like ‘zhang%’
6. 不对索引字段进行计算(不然索引会失效)
反例:select name from user where FROM_UNIXTIME(create_time) < CURDATE();
正例:select name from user where create_time < FROM_UNIXTIME(CURDATE());
7.保证参数的数据类型与库一致(不然会作强制转换)
库里 phone字段为varchar
反例:select name from user where phone=18810503732;
正例:select name from user where telno=‘18810503732’
8. 避免复合索引失效
说明:user表的username 和phone 字段创建了复合索引,且username在前面。
能利用到索引的SQL:
select username from user where username=‘zhangsan’ and phone =‘18810503732’
select username from user where phone =‘18810503732’ and username=‘zhangsan’
select username from user where username=‘zhangsan’
不能利用到索引的SQL:
select username from user where phone =‘18810503732’
这个类似于电话本,你先以用户名字作了目录,再按电话号作的目录。如果你先查电话的目录的话,肯定是不行的。你只能先安用户名字去搜索。
非同步方法会不会受同步方法的影响?
SQL语句中or的使用方法注意事项
二、优化特定类型的查询
1. 优化count查询
1.尽量使用count(*)。当然也可以尝试索引覆盖,此时最好是主键。
count(columnName) 虽然也可以求出行数,但是它有一个致命的问题,那就是不统计为NULL的列。所以如果用列名代替*求行数的方式可能会出现统计错误。
2.优化关联查询
1.确保在ON或USING的关联顺序中第二个表的关联列有索引
例如,当A表和B表的关联顺序是A、B,即SQL语句为select * from A left join B on A.cid = B.cid 时,需要保证在B表的cid列表创建索引,而A表的cid列有无索引对性能没有影响。
2. 尽量让group by 和order by 的表达式中只涉及到一个表中的列
分组的字段在一个表,排序的字段又在另外一个表中,这样就很难利用到索引。
3.优化子查询
1. 尽量使用关联查询代替子查询
子查询会创建临时表,而临时表又没有任何索引
2. 子查询优化的基本思路,就是消除嵌套层次,把子查询与父查询放在同一个层次去执行。
实现步骤:
把子查询的FROM子句中的表对象,与上层的父FROM子句中的表对象做JOIN
再把子查询的WHERE子句中的条件表达式,与上层的父WHERE子句中的条件表达式用“AND”操作符连接
4.优化group by
1. 不关心顺序时,尽量用order by NULL 避免group by的默认排序(从而避免了文件排序)
group by子句如果没有指定排序列,则会自动根据分组列进行默认升序排序,从而导致了文件排序。
有个一般人不会用的方式,那就是直接在 group by 字段A 后面加上ASC或DESC关键字,使得分组结果按分组列(字段A)进行升序或降序排序。
2. group by要求返回的所有字段,要么出现在聚合函数(avg、sum、count、max、min等)中,要么出现Group By后面作为分组依据,不然高版本的mysql会报错。这是因为分组后,没有通过聚合函数聚合的多行数据不知道怎么存放在一行了,高版本时可通过配置文件设置忽略,从而只选择一行来存。
3. 注意:group by是先排序再分组,且是分组后再聚合。
4.1优化group by with rollup
可通过explain查看执行计划,决定是否加with rollup
with rollup表示需要做超级聚合,即可统计分组结果中每组数据分组前的某些值,如我们需要统计各部门员工工资的平均值
select depId, avg(money) from user group by depId with rollup;
需要注意的是,用了with rollup后不能再使用order by关键字,但可以直接在分组字段后加asc或desc
参考:
5.优化limit
1.尽量利用索引覆盖做“延迟关联"(延迟关联也可以优化关联查询的limit子句)
在做分页查询时,如果遇到像limit 2000,20这样偏移量大的查询时,mysql会实际查询2020条数据,然后抛弃前面2000条数据,只返回最后20条。这样做的代价非常高。
limit 2000,20 这样的分而之所以会慢,是因为offset。offset会导致mysql扫描大量不需要的行然后抛弃掉。所以平时我们看到 limit 1 这种写法是与offset无关的,也就是说这种写法不会很慢。顺便提一下,limit 2000,20 是等价于 limit 20 offset 2000的。
6.优化union查询
1.如果不需要对查询结果去重的话,尽量使用union all 而不是union。
union后没跟all 时,会自动给临时表加上distinct做唯一性检查,从而降低性能。
2.巧用 limit
(SELECT * from sys_user where id < 2000 order by office_id ) UNION (SELECT * from sys_user WHERE id >2000 order by office_id ) order by office_id desc limit 20;
两个括号里的子查询都会将各自的数据全部放在一个临时表中,然后从临时表中取出20条数据,这时可以将每个子查询都用上limit 20 :
(SELECT * from sys_user where id < 2000 order by office_id limit 20) UNION (SELECT * from sys_user WHERE id >2000 order by office_id limit 20 ) order by office_id desc
这样一来,临时表中就只有40条数据了。需要注意的是,从临时表取数据的顺序是不确定的,所以要想按自定义的顺序取,必须在全局加上order by ,如上面SQL上的红色字。
7.优化 in 子查询
1.将in子查询用innor join改写成关联查询
IN的子查询在实际执行的时候会被mysql自动改写成较缓慢的查询(mysql有时候也会自以为是的,哈哈),如下查询
select * from film where film_id IN(select film_id from film_actor where actor_id = 1)
会被改成写:
select * from film where film_id exists (select film_id from film_actor where actor_id = 1 and film_actor.film_id = film.film_id )
从改写后的语句可以看到,子查询里面涉及到外部表
优化后的写法为:
select * from film inner join film_actor ON film.film_id = film_actor.film_id WHERE film_actor.actor_id = 1;
8.优化 MAX()、MIN()
1. 通过order by 和limit来优化
如下,我们需要获取最大值和最小值(前提是id值有索引)
优化前:
最小值:select min(id) from actor;
最大值:select max(id) from actor;
优化后:
最小值:select id from actor order by id asc limit 1;
最大值:select id from actor order by id desc limit 1;
从explain可以看出,虽然优化前和优化后都用到了索引,但是min和max函数进行了大量的扫描,而优化后只扫描了一行。
9.优化OR查询
用UNION替换OR (仅适用于索引列)
对索引列使用OR将造成全表扫描。注意,该规则只针对多个索引列有效. 如果有column没有被索引, 查询效率可能会因为你没有选择OR而降低。
在下面的例子中, LOC_ID 和REGION上都建有索引:
高效: select log_id , log_desc , region from log where log_id = 10 UNION
select log_id , log_desc , region from log where region= “update”
低效: select log_id , log_desc , region from log where log_id = 10 OR region = “update”
如果你坚持要用OR, 那就建议你将返回记录最少的索引列写在最前面。