最近面试有家公司问了个mysql的数据去重,自己对于mysql一般多用于增删改查,所以私下来尝试了mysql数据的去重总结
DISTINCT
在使用MySQL时,有时需要查询出某个字段不重复的记录,这时可以使用mysql提供的distinct这个关键字来过滤重复的记录,但是实际中我们往往用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。如下:
表student
SELECT DISTINCT s_name FROM student;
SELECT COUNT(DISTINCT s_name) AS scounts FROM student;
GROUP BY
group by 字句把一个表按照某一指定列或者一些列上的值相等的原则分组。然后再对每组数据进行规定的操作
SELECT * FROM student GROUP BY s_name;
如果出现this is incompatible with sql_mode=only_full_group_by
一、原理层面
这个错误发生在mysql 5.7 版本及以上版本会出现的问题:
mysql 5.7版本默认的sql配置是:sql_mode=“ONLY_FULL_GROUP_BY”,这个配置严格执行了"SQL92标准"。
很多从5.6升级到5.7时,为了语法兼容,大部分都会选择调整sql_mode,使其保持跟5.6一致,为了尽量兼容程序。
二、sql层面
在sql执行时,出现该原因:
简单来说就是:输出的结果是叫target list,就是select后面跟着的字段,还有一个地方group by column,就是
group by后面跟着的字段。由于开启了ONLY_FULL_GROUP_BY的设置,所以如果一个字段没有在target list
和group by字段中同时出现,或者是聚合函数的值的话,那么这条sql查询是被mysql认为非法的,会报错误。
解决方案:
先查看sql_mode
select @@GLOBAL.sql_mode;
执行:
set@@GLOBAL.sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION
或修改mysql的配置文件
windows中为my.ini
linux为my.cnf
具体操作请自行搜索
删除重复数据保留其中一条
我们首先执行
DELETE FROM student WHERE s_name IN (SELECT s_name FROM student GROUP BY s_name HAVING COUNT() >1) AND s_name NOT IN (SELECT MIN(s_id) FROM student GROUP BY s_name HAVING COUNT() >1);
发现出现了错误:
原因是:更新这个表的同时又查询了这个表,查询这个表的同时又去更新了这个表,可以理解为死锁。mysql不支持这种更新查询同一张表的操作
解决办法:把要更新的几列数据查询出来做为一个第三方表,然后筛选更新。
DELETE FROM student WHERE s_id NOT IN (SELECT dt.mins_id FROM (SELECT MIN(s_id) AS mins_id FROM student GROUP BY s_name) dt);
已经将重复的完成了删除