最近面试有家公司问了个mysql的数据去重,自己对于mysql一般多用于增删改查,所以私下来尝试了mysql数据的去重总结

DISTINCT

在使用MySQL时,有时需要查询出某个字段不重复的记录,这时可以使用mysql提供的distinct这个关键字来过滤重复的记录,但是实际中我们往往用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。如下:

表student

MYSQL 去重查询 mysql的去重_mysql


SELECT DISTINCT s_name FROM student;

MYSQL 去重查询 mysql的去重_字段_02


SELECT COUNT(DISTINCT s_name) AS scounts FROM student;

MYSQL 去重查询 mysql的去重_sql_03

GROUP BY

group by 字句把一个表按照某一指定列或者一些列上的值相等的原则分组。然后再对每组数据进行规定的操作

SELECT * FROM student GROUP BY s_name;

MYSQL 去重查询 mysql的去重_sql_04


如果出现this is incompatible with sql_mode=only_full_group_by

一、原理层面

这个错误发生在mysql 5.7 版本及以上版本会出现的问题:

mysql 5.7版本默认的sql配置是:sql_mode=“ONLY_FULL_GROUP_BY”,这个配置严格执行了"SQL92标准"。

很多从5.6升级到5.7时,为了语法兼容,大部分都会选择调整sql_mode,使其保持跟5.6一致,为了尽量兼容程序。

二、sql层面
在sql执行时,出现该原因:
简单来说就是:输出的结果是叫target list,就是select后面跟着的字段,还有一个地方group by column,就是
group by后面跟着的字段。由于开启了ONLY_FULL_GROUP_BY的设置,所以如果一个字段没有在target list
和group by字段中同时出现,或者是聚合函数的值的话,那么这条sql查询是被mysql认为非法的,会报错误。

解决方案:
先查看sql_mode
select @@GLOBAL.sql_mode;

执行:
set@@GLOBAL.sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION

或修改mysql的配置文件
windows中为my.ini
linux为my.cnf
具体操作请自行搜索

删除重复数据保留其中一条

我们首先执行
DELETE FROM student WHERE s_name IN (SELECT s_name FROM student GROUP BY s_name HAVING COUNT() >1) AND s_name NOT IN (SELECT MIN(s_id) FROM student GROUP BY s_name HAVING COUNT() >1);

发现出现了错误:

MYSQL 去重查询 mysql的去重_sql_05


原因是:更新这个表的同时又查询了这个表,查询这个表的同时又去更新了这个表,可以理解为死锁。mysql不支持这种更新查询同一张表的操作

解决办法:把要更新的几列数据查询出来做为一个第三方表,然后筛选更新。

DELETE FROM student WHERE s_id NOT IN (SELECT dt.mins_id FROM (SELECT MIN(s_id) AS mins_id FROM student GROUP BY s_name) dt);

MYSQL 去重查询 mysql的去重_字段_06


已经将重复的完成了删除