一、幂等的概念
概念源自百度百科:
幂等(idempotent、idempotence)是一个数学与计算机学概念,常见于抽象代数中。
在编程中一个幂等操作的特点是其任意多次执行所产生的影响均与一次执行的影响相同。幂等函数,或幂等方法,是指可以使用相同参数重复执行,并能获得相同结果的函数。这些函数不会影响系统状态,也不用担心重复执行会对系统造成改变。例如,“setTrue()”函数就是一个幂等函数,无论多次执行,其结果都是一样的。更复杂的操作幂等保证是利用唯一交易号(流水号)实现。
在编程中对幂等概念的疑问:函数的一次执行,因为系统内部出现了临时性异常(外部调用网络超时等),返回了错误结果,那么是不是后面的多次执行都该返回同样的异常?
显然这并不是我们想要的幂等。因此我将幂等定义为:一个函数在正确执行的情况下,执行多次的结果和执行一次的结果一致。
什么情况下需要处理幂等
- 前端的表单重复提交;
- 无线端网络抖动的多次提交;
- 系统间调用的超时重试;
- 分布式调用的最终一致性:一次请求调用了多个系统,部分成功,部分失败,需要重试,等等。
二、并发和幂等的误区
举个例子
并发:服务的一次会话还未结束又来一个新会话的场景,多次会话参数相同;
例子:一次用户表单提交,因为点的快或网络抖动,近乎同时连续提交多次;
幂等:服务的多次会话分多次请求到服务器,多次会话参数相同;
例子:一次用户表单提交,用户开了两个窗口,间隔两个小时分别提交;
我们会注意到并发也是幂等里边的一种啊,为什么要做区分?我们得从并发的处理方式上来讲了。我们知道并发一般的处理是加全局锁,我们不妨假设系统提供的服务是单线程的,那么还需要处理并发么?显然不需要了。此时我们就得去处理幂等的问题,即多次请求进来后怎么保证执行结果唯一。然而好多研发同学对这种表单重复提交的,做一个并发锁,认为就是做了幂等,这个理解是错误的。
再次强调下,一定注意幂等要处理的问题是多次执行的唯一性,并不是对并发的控制。
三、幂等处理的场景
我们将幂等处理的场景分为大任务和小任务两种场景:
3.1 小任务场景
这个场景的处理方式很简单,可以追求强一致性。在幂等函数中,先判断幂等记录是否存在。如果存在,直接返回;如果不存在,开启一个事务。在事务中,处理业务逻辑,并插入幂等记录。
3.2 大任务场景
在大任务场景下,需要将大任务拆成多个小任务分别执行。在每个小任务中,都可以有事务,每个小任务使用同样的幂等Key,或者任务名 + 幂等Key。但是,没有事务能够保证所有的小任务同时成功。因此,存在部分成功的场景。针对部分成功的场景,可以利用重试机制做到最终一致性。大任务场景最多见的就是一次请求调用了多个系统,分布式强一致性的解决方案一般都很重,对一致性实时性要求不是很高的系统,一般我们都采用重试做到最终一致性。
大任务场景又分为同步执行小任务和异步执行小任务两种:
- 同步执行小任务:各小任务依次执行,中间的小任务不返回结果,仅在最后一个小任务或之后返回结果;
- 异步执行小任务:各小任务单独执行,互相不感知,也没有地方返回结果。
四、幂等处理的实现
4.1 幂等键的设计及实现
- UUID 或 时间戳:对于任何请求,均可使用。但是需要每次请求都维护该值和具体业务的对应关系,会比较繁琐;
- 唯一业务单据号:对于只请求一次且需要确保成功的场景,比如用户支付的交易单号。调用方使用该幂等键确保一次请求的唯一,被调方使用该幂等键确保服务的唯一;
- 唯一业务单据号 + 状态:对于一个单据请求多次的场景,比如用户订单号,下单时需要用该单号占库存,出库时需要用该单号扣库存;
- 单据号 + 用户ID + 设备ID:对于多人作业系统中,一个单据多个人可以同时作业,采用这些组合信息做为幂等键来唯一标识一次请求;
从上边这些举例可以看出,幂等键实际上就是找到某个或某几个业务字段来唯一标识一次请求。对于正常的单据系统唯一业务键比较好找,但是对于某些实操系统,实在是找不出这种可以唯一标识的字段怎么办?那就采用UUID、时间戳等方式去做。这种非业务幂等键的方式,一定要确保幂等键和请求的对应关系做到持久化,不然幂等的校验就无从实现。同时这种方式也就意味着会有额外的存储成本和处理成本。
4.2 幂等表数据的存储设计
一次请求进来,需要对请求的参数以及系统处理的结果做持久化,一般一张幂等数据存储表需要有如上参数,具体参见表格备注。不同系统可根据不同需求使用 Redis/Tair 或 DB 实现。
- 如果使用 DB,也可拆分成多张表存储,把重试所需参数等信息单独存储;
- 如果简单使用Tair的Key/Value实现的话,需保证幂等Key和参数MD5是存在的,其他参数可选,但这样会丢失一些功能,比如重试的参数中哪个字段不一样无法校验。比如实操系统中前端获取要重试的幂等Key,没有办法拿到,后面会重点讲到;
4.3 一般幂等处理的标准流程
总结:
- 很清晰地区分了并发、幂等的处理,逻辑处理清晰不混乱;
- 适用于大、小任务场景,大任务的并发场景也可以很好的支持;
业务失败场景的考虑:
- 不管业务执行成功与否,都记录幂等记录,与此对应的,请求再次进来会去判断如果是已经执行失败的请求,则会去重试,从而保证最终一致性;如果确实是因为参数等问题失败,需要更换参数,那调用方就需要更换幂等键重试,比如订单下发,仓库物理库存不足,用户就需要取消订单重新下,一次幂等键的更换就是一次新的请求,一次幂等键的更换一定意味着一次新的业务语义。
- 常见的一种实现是当业务失败时不记录幂等记录,那么就需要确保所有的失败业务全部回滚,对于分布式的调用会比较繁琐,也难以保证全部回滚,故此舍弃这种实现。
- 对于实操系统或无业务语义的请求,业务逻辑处理失败时,需要考虑区分需重试异常和其他异常,因为对于这种系统来说,前端的一次录入,参数错了就错了,重新换一个就是。不像订单下发那样,参数错了需要取消订单再重新下。后面会重点讲。
大家可以参照上图一个大任务场景,对照着上边的处理流程去推演各种场景
- 同步小任务的场景下:ABC三个系统均使用类似的处理流程,因是同步小任务,所以A可以总控BC是否失败,A也可以在重试时直接校验两次参数是否一致,并保证BC不会有不同的结果,此时BC的实现就可以简单点了;
- 异步小任务的场景下:A无法控制BC是否失败,但是BC可以自己用这套流程来保证,在请求重试时,各自保证重试参数的一致性,从而保证各自系统执行结果的唯一性;
4.4 反例:一种没有分清并发和幂等的实现
因为两种概念混淆,统一用redis实现,加锁的Key也是幂等Key,使用Redis的Value值来区分是并发锁还是幂等命中,导致整个处理流程特别复杂,还没有很好的重试校验机制,是一种典型的没有分清并发和幂等的概念的设计实现,值得参考。
如上,对于正常的系统间调用,这些幂等的知识和设计实现已经足够了,但是在实操系统或跟前端交互频繁的系统中,在具体的实现中还是会有很多问题,下面会继续深入探讨实操系统中幂等实现的大小坑。
五、幂等在实操系统中的实践
先科普下什么是实操系统:允许单人多次执行 或 多人同时执行某种单据的系统。比如WMS系统里的拣货,一个拣货单,需要扫码枪一件件商品扫过去,哪怕是同样的商品也是要一件件扫;或者说一个拣货单,可以逐件扫几件,输数量几件,再逐件扫几件等,随心所欲,想怎么玩怎么玩。
那么实操系统的难点在哪里?
- 幂等键不好确定:一个员工,一个拣货单,10件A商品,需要扫描10次,每次请求都是同样的参数,用什么来唯一识别?
- 跟前端的交互很复杂:幂等键谁来控制?后端生成还是前端生成?什么时候要更换幂等键,后端决定还是前端决定?
- 处理失败了无法保证前端重试:前端页面具有瞬时性,即用户录入数据没有持久化,用户一旦退出页面再进来,操作的参数也随之丢失,无法保证用户重试直到成功。不像系统间调用,服务方一个函数失败,调用方根据自己存储的数据再次重试直到成功即可。
- 前端实操的随意性:可能就是因为用户随意的操作,参数校验失败了,此时不能像系统间调用笼统的让上游重试或换单,需要做更细粒度的区分,哪些异常必须重试,哪些异常不用重试可以直接忽略;
基于这几个难点问题,我们分别去讨论。
5.1 实操系统中幂等的处理流程
对于难点4,我们对之前的标准流程做了点改造,增加了业务失败场景的处理。对于大任务场景下的部分成功,必须要再发起重试以保证最终一致性。对于小任务场景下的全部失败,或者一些参数校验异常压根没有执行具体业务逻辑的场景,可以直接忽略此次处理,不用存储本次幂等执行记录。
这么做的原因前边也提到了,实操场景不同于系统间调用,系统间一次调用失败,要么调用方一直重试,要么更换幂等键重试,比如订单下发的场景,失败了上游系统一直重试提交订单,如果要修改请求参数,也只能是用户前台取消订单并重新下新的订单,也即新的订单请求。实操系统中,用户前端输入的数量很随意,失败了就重新输入数量重试,有时大任务场景的部分失败,必须要让用户前端重试,而有的小任务场景或参数校验等异常,则可以忽略,用户可以继续下一步。将不同的异常场景做区分,以应对难点4中用户操作的随意性。
5.2 幂等键该由前端还是后端生成
要讨论清楚到底是哪一端生成,首先就需要清楚后端会有哪些返回结果。一般一次请求,后端的返回分为如下几种:
- 成功:实操可继续下一步
- 失败
- 需重试异常:如前边讲的部分成功,部分失败场景,一定得重试,从而保证最终一致性
- 其他异常:其他异常可重试也可不重试,可根据具体业务来,未改变系统状态
- 无返回:一般指超时,需要重试,因无法确定后端情况
针对不同的返回,我们分别讨论下前后端生成幂等键在处理上会有什么区别
I. 前端生成幂等键
- 成功:前端可进行下一步操作,并自行更换幂等键;
- 失败:前端需要根据后台返回的不同错误码或错误类型决定是否要更换幂等key和是否重试
- 需重试异常:前端不可更换幂等键,并在前端确保用户重试直到成功,如若退出,再进来前端幂等键则会丢失,导致数据异常;
- 其他异常:前端可不用更换幂等键,继续下一步;
- 无返回:即超时,前端不换幂等键,并在前端确保用户重试直到成功,如果退出,再进来前端幂等键则会丢失,有可能后端部分失败,导致数据异常;
II. 后端生成幂等键
- 成功:后端更换幂等键,前端拿到后直接进行下一步操作;
- 失败:后端根据自身的业务异常决定是否要更换幂等键;
- 需重试异常:后端业务部分成功部分失败,需要重试来解决。不更换幂等键,前端需提示用户重试,用户可退出,退出再进来后端会返回这次部分失败的幂等键及信息,前端提示用户继续操作;
- 其他异常:后端所有业务处理都失败,更换幂等键,继续下一步;
- 无返回:即超时,前端还是使用原来的幂等键,并提示用户重试,如果退出再进来,如果后端已经成功或完全失败则会新生成幂等键,如果后端部分成功,即需要重试,则会返回部分失败的幂等键及信息,前端提示用户继续操作;
通过如上的说明已经很清晰了,我们做一个比较发现,在失败的场景下,很明显后端的这些业务逻辑不应该让前端感知,哪天后端的错误类型或错误码变了,前端就需要跟着改,并且由前端强制用户一直重试,体验太差,不可取。故此,幂等键还是后端生成更为合理。
关于幂等键是前端还是后端生成,我们和前端同学争(si)论(bi)了好久,到今天也会看到前端同学曾经因为妥协,在底层为所有请求加了一个参数idempotentKey,每次请求都会自动生成一个新的。但是经过我们的对比分析,我们得出结论,实操系统的幂等键从后端获取比较合理,并且,后端获取幂等键的处理流程也可以如幂等函数的处理逻辑一样标准化。那对于难点1也就有了结论,后端生成更为合理。
5.3 获取幂等key的标准流程
I. 后端系统的标准返回
基于上边的讨论,我们可以确定和前端交互的标准报文如上所示。
- 成功:就是简单的页面数据返回和下一步的新幂等Key。
- 失败:通过幂等类型字段,将失败分为了重试异常和其他异常,重试异常需用页面原有参数让用户重试,其他异常可直接忽略,使用新的幂等Key继续下一步操作。
- 获取幂等键:返回值增加了两个参数
- 幂等类型:如果根据前端业务上下文找到有需重试的幂等记录,则返回retry,否则就是新的幂等键;
- 幂等参数:如果是retry类型的幂等键,前端需根据上次的参数渲染页面,让用户直接重试即可。
II. 后端获取幂等Key的一个标准实现
这里的幂等上下文,即前边4.2章节中讲的`biz_info`,一次请求的幂等,肯定有对应的业务单据或Task等信息,我们需要根据这些信息找到对应的执行记录,并查找是否有未成功的幂等记录,如果有则返回对应的幂等Key和上次的请求参数,供前端重试;如果没有则生成新的幂等Key。
这样我们也就解决了难点3前端无法保证用户重试的问题,通过请求参数的持久化,可以让用户不管什么时候进来都可以重试。
5.4 实操系统幂等键的设计
对于难点1如何确定幂等键,我们分别从非业务幂等键、业务幂等键两种类型进行讨论。
第一种:非业务幂等键
使用UUID、时间戳等其他唯一字段。如5.1节讨论,这种非业务幂等键,必须保证有持久化,每次的任务执行都有记录,这样来保证请求和幂等键的关系有迹可循,对复杂系统间最终一致性的实现也提供了基础。
其实这种做法对于实操系统来讲最合适不过了,因为实操系统没有办法找到一个唯一的业务键来标识每一次请求,所以采用系统生成唯一标识的方法来做,将该唯一标识和系统的每一次请求绑定,并持久化,从而完成对每次请求的标识。如5.3节中讨论,前端页面每次进来时都会请求幂等键,如果有失败记录我们就会返回该记录让前端重试,此时我们可以把实操的步骤看做流水线,一个环节都不能跳过,从而保证系统的绝对正确。
第二种:业务幂等键
对于实操系统,其实经过分析还是可以找出业务幂等键的,比如使用 单据id + 已录数量 + 本次录入数量 做组合幂等键,来唯一标识一次实操请求。这样,前端就不用每次生成幂等键,等请求到达后端,由后端系统自己去获取自己需要的参数拼接成幂等键。对于失败重试的情况,只要前端的参数命中后端的组合幂等键,就能达到重试的目的。
表格中是实操系统中几种组合幂等键,其中已录数量、录入数量这两个值可以很好的从业务角度区分出每次的请求。其他的字段可以根据不同的实操场景来增加,只要能唯一标识出这次的请求即可。
同样的,如果使用业务幂等键,我们也分析下后端返回的情况:
- 成功:前端直接进行下一步操作,无需关心幂等键,因为幂等键就在操作的参数里;
- 失败:不用区分重试或不重试异常,因为区分了也没有用。前端可提示用户重试,但无法保证用户一定重试。用户可退出重进,是否重试完全取决于用户录入的参数,参数和之前一样,则会触发重试;
- 无返回:前端可提示用户重试,用户可退出再进,只要再进来录入参数和之前一样,即会触发重试;
对于重试的场景,举一个极端例子,比如超市收银系统,一件商品买了10件,可以前边逐件扫描3件,后面扫描一件输入数量3,再扫一件输入数量2,再扫逐件扫2件。此时比如输数量3的操作,大任务场景部分失败(比如库存扣减成功,但是账本新增失败了),但后面的数量录入时,参数没有和之前3件重复的,那也就相当于前端没有发起重试,可能会导致数据的最终不一致。
当然我们可以像非业务幂等处理那样去处理可重试异常,页面刚进来时获取需重试的幂等参数,实际请求执行时对需重试的请求做记录等等,但是这样的话要业务幂等键的意义就不大了,我不用去费工夫想如何找到业务幂等键,而是简单生成一个UUID就可以解决问题。
最后一个难点,实操系统的幂等键该如何设计,有了上边的比较,如果可以简单使用业务幂等键最好,如果某些场景不满足,使用非业务幂等键也不失为一个更好的选择。