在项目中主要是用到了 在多个线程中需要循环的将数据插入,而且根据指定的几个字段是可以唯一确定这条记录的,这个时候如果不适用去重的逻辑就会产生很多很多的杂数据,但是如果是在代码层级的判重,则需要每次插入的时候去查询一下,这样效率不好。因此就到网上找相关的,当然这个还是一个比较有经验的人告诉的一个思路。下面就来看看mysql天生支持的几种去重的操作,

1.insert ignore into 
当插入数据时,如出现错误时,如重复数据,将不返回错误,只以警告形式返回。所以使用ignore请确保语句本身没有问题,否则也会被忽略掉。例如: 
INSERT IGNORE INTO books (name) VALUES ('MySQL Manual') 
这种方法很简便,但是有一种可能,就是加入不是因为重复数据报错,而是因为其他原因报错的,也同样被忽略了~

2.on duplicate key update 
当primary或者unique重复时,则执行update语句,如update后为无用语句,如id=id,则同1功能相同,但错误不会被忽略掉。例如,为了实现name重复的数据插入不报错,可使用一下语句: 
INSERT INTO books (name) VALUES ('MySQL Manual') ON duplicate KEY UPDATE id = id 
这种方法有个前提条件,就是,需要插入的约束,需要是主键或者唯一约束(在你的业务中那个要作为唯一的判断就将那个字段设置为唯一约束也就是unique key)。

3.insert … select … where not exist 
根据select的条件判断是否插入,可以不光通过primary 和unique来判断,也可通过其它条件。例如: 
INSERT INTO books (name) SELECT 'MySQL Manual' FROM dual WHERE NOT EXISTS (SELECT id FROM books WHERE id = 1) 
这种方法其实就是使用了mysql的一个临时表的方式,但是里面使用到了子查询,效率也会有一点点影响,如果能使用上面的就不使用这个。

4.replace into 
如果存在primary or unique相同的记录,则先删除掉。再插入新记录。 
REPLACE INTO books SELECT 1, 'MySQL Manual' FROM books 
这种方法就是不管原来有没有相同的记录,都会先删除掉然后再插入。