在数据库中,UNION和UNION ALL关键字都是将两个结果集合并为一个,但这两者从使用和效率上来说都有所不同。



MySQL中的UNION

UNION在进行表链接后会筛选掉重复的记录,所以在表链接后会对所产生的结果集进行排序运算,删除重复的记录再返回结果。实际大部分应用中是不会产生重复的记录,最常见的是过程表与历史表UNION。如:

select * from gc_dfys union select * from ls_jg_dfys

这个SQL在运行时先取出两个表的结果,再用排序空间进行排序删除重复的记录,最后返回结果集,如果表数据量大的话可能会导致用磁盘进行排序。 

MySQL中的UNION ALL

而UNION ALL只是简单的将两个结果合并后就返回。这样,如果返回的两个结果集中有重复的数据,那么返回的结果集就会包含重复的数据了。

从效率上说,UNION ALL 要比UNION快很多,所以,如果可以确认合并的两个结果集中不包含重复的数据的话,那么就使用UNION ALL,如下:

select * from gc_dfys union all select * from ls_jg_dfys

 

使用Union,则所有返回的行都是唯一的,如同您已经对整个结果集合使用了DISTINCT


使用Union all,则不会排重,返回所有的行



如果您想使用ORDER BY或LIMIT子句来对全部UNION结果进行分类或限制,则应对单个地SELECT语句加圆括号,并把ORDER BY或LIMIT放到最后一个的后面:


(SELECT a FROM tbl_name WHERE a=10 AND B=1)   
  
 UNION 
  
 (SELECT a FROM tbl_name WHERE a=11 AND B=2) 
  
 ORDER BY a LIMIT 10;


麻烦一点也可以这么干:


注意:在union的括号后面必须有个别名,否则会报错

select userid from ( 
  
 select userid from testa union all select userid from testb) t  
  
 order by userid limit 0,1; 
  


 如果你还想group by,而且还有条件,那么: 
  
 select userid from (select userid from testa union all select userid from testb) t group by userid having count(userid) = 2;




当然了,如果当union的几个表的数据量很大时,建议还是采用先导出文本,然后用脚本来执行


因为纯粹用sql,效率会比较低,而且它会写临时文件,如果你的磁盘空间不够大,就有可能会出错


Error writing file '/tmp/MYLsivgK' (Errcode: 28) 



总结:


3.1:不要迷信union all 就比 or及in 快,要结合实际情况分析到底使用哪种情况。

     3.2:对于索引列来最好使用union all,因复杂的查询【包含运算等】将使or、in放弃索引而全表扫描,除非你能确定or、in会使用索引。

    3.3:对于只有非索引字段来说你就老老实实的用or 或者in,因为 非索引字段本来要全表扫描而union all 只成倍增加表扫描的次数。

    3.4:对于及有索引字段【索引字段有效】又包含非索引字段来时,按理你也使用or 、in或者union all 都可以,

       但是我推荐使用or、in。

      如以下查询:



Sql代码  


1. select * from bt where bt.VName = 'M98' or bt.id ='9888589'
2.   
3. select * from bt where bt.VName = 'M98'
4. UNION ALL
5. select * from bt where  bt.id = '9888589'


     该两个查询速度相差多少 主要取决于 索引列查询时长,如索引列查询时间太长的话,那你也用or或者in代替吧。