在我们平时的业务开发中,删除表数据是一个很常见的操作。在某些特定场景下,甚至会要求大批量的删除表中的数据。

今天我们来简单聊聊,如果有一个需求,要求我们删除一张大表中的前1万,甚至是前10万行数据,都有哪几种方法呢?这些方法都有什么优劣?

方式一

直接执行 delete from T order by id limit 100000;

这种方式写法最简单,从业务开发角度来说,非常节省我们的时间。

但是,一次性删除这么多的数据,相当于执行一个大事务,导致锁的时间非常长,并且,大事务会导致数据库主从延迟特别严重。

如果表中数据量不多,可以这样做。对于数据量特别大的表,建议避免这种写法。

方式二

既然一次性删除这么数据不可取,那我们可以换种思路:在一个循环中,分N次每次删除M条数据,即 delete from T order by id limit M;

这种方式实现稍微麻烦一点,但是我们把一个大事务拆分成N个小事务,可以大大降低事务冲突的概率。

方式三

除了以上两种方式,我们还可以采取以空间换时间的策略,来加快执行速度。

当我们提前知道要删除的主键id时,可以将id列表拆分成多份,然后在多个连接中同时执行删除操作 delete from T where id in (id1,id2,id3…);

但是这种方式适合在知道id的情况下,进行针对性的删除。

如果直接执行delete from T order by id limit M,反而会人为的导致锁冲突,有些得不偿失了。

总结

具体用哪种方式,可以根据我们的实际业务场景来选择。

如果表数据较少,访问量也不高,那么方式一就比较合适。

如果表数据较多,并发量又很高,那么建议使用方式二或者方式三。

总得来说,尽可能的降低锁冲突的概率,减少死锁对数据库的影响,就相当于变相的提升了数据库的并发量。