【问题背景】

        某天早上做活动,流量大量增长,导致大量更新库存操作失败。

Lost Connection to mysql server”,即mysql服务端主动断开了连接,导致update操作失败。

        都是在sql执行过程中返回的“Lost”,且都是update操作返回“Lost”,同一时刻的“select”操作并无异常。

        都是update执行操过了1s后返回的“Lost”

【原因】

        秒杀情景下是大量update同时操作同一表的同一记录

        对同一记录的写操作都要加“行锁”,且有“死锁检测”,使得sql操作串行执行,有阻塞

        猜测:某些请求由于等到超时了,被mysql服务关了连接

【老流程】

如果需要更新 item1(分库1)、item2(分库2)、item3(分库4)的库存

  • 流程

=>所有分库,每个分库上均开启一个事务

=>查询。。

=>循环处理3个item

=>=>如果该次操作以前没做过(没有对应<seqid,itemid>)继续;否则处理下一个item

=>=>更新库存

=>=>更新是否售空

=>=>插入<seqid/item>

=>所有分库,每个分库均提交事务

1)如果有一个item更新失败,回滚所有事务

2)尽量保证要不所有item都更新成功,要不都失败

mysql update 减库存_提交事务

 

  • seq表

        每次的请求对应一个唯一的seqid,而<seqid,itemid>记录了这次请求的item是否更新成功。

        如果seq表中有这条记录表示上次请求的item以更新成功。

        目的是为了防止由于上次操作成功,而返回结果时出现问题,下次重试导致重复的执行。

  • 问题

1)一个事务中,sql操作太多;如果事务中有update操作,则从update操作执行到事务提交将会一直锁住操作行,因此事务越长,锁越长,性能损耗越大

2)每个分库都要等所有item更新完后才提交,增长事务时间(也就是锁时间)

【优化后】

如果需要更新 item1(分库1)、item2(分库2)、item3(分库4)的库存

  • 流程

=>循环在每个item所在分库对item进行处理

=>=>在分库1中开启事务

=>=>插入seq表<seq,item1>

=>=>更新库存and是否售空

=>=>分库1中提交事务

=>=>分库2。。中操作item2

=>=>分库4。。中操作item3

mysql update 减库存_提交事务_02

 

  • 更改

1)并没有在所有分库中新起事务,而是每个事务中只处理自己所包含的item的减库存操作;当一次请求多个item时,减少每个库的事务的时间长度

2)先插入seq表,再更新库存,如果插入失败直接退出;减少一次读seq操作,将事务中sql操作减到最少

  • 问题

1)一次操作多个item时,不保证要不都成功,要不都失败

2)只要有sql操作失败,就返回失败

【对比】

mysql update 减库存_sql_03

mysql update 减库存_sql_04