ElasticSearch7.6.2使用_delete_by_query产生版本冲突(version conflict)问题
环境:ElasticSearch7.6.2
问题产生的原因:
对某个index的数据进行删除,删除的数据量在千万级别。删除过程中产生版本冲突。
POST /monitor_user_log_info/_delete_by_query
{"query":{"bool":{"filter":[{"range":{"createTime":{"from":"2020-09-01T00:00:00.000Z",
"to":"2020-09-31T23:59:59.000Z","include_lower":true,"include_upper":true,"boost":1.0}}}],"adjust_pure_negative":true,"boost":1.0}},"track_total_hits":2147483647}
原因如下:
在执行_delete_by_query期间,为了删除匹配到的所有文档,多个搜索请求是按顺序执行的。每次找到一批文档时,将会执行相应的批处理请求来删除找到的全部文档。如果搜索或者批处理请求被拒绝,_delete_by_query根据默认策略对被拒绝的请求进行重试(最多10次)。达到最大重试次数后,会造成_delete_by_query请求中止,并且会在failures字段中响应 所有的故障。已经删除的仍会执行。换句话说,该过程没有回滚,只有中断。
在第一个请求失败引起中断,失败的批处理请求的所有故障信息都会记录在failures元素中;并返回回去。因此,会有不少失败的请求。
如果你想计算有多少个版本冲突,而不是中止,可以在URL中设置为conflicts=proceed或者在请求体中设置"conflicts": “proceed”。
第一步解决后出现超时问题,这是因为我们执行删除后会等待命令结束之后的结果,但是由于删除的数据量太大,不可能一时半会儿删除数据,从而出现超时问题。通过查询资料发现,这个可以通过加一个参数来设置执行命令之后立即返回,不等待删除的结果。只要设置wait_for_completion=false即可。
返回结果:
{
"task" : "yzkWe25WQr291Fa9k2S0vg:1766403051"
}执行完之后立马返回了一个taskid,我们可以通过这个taskid来查看数据的删除情况。
GET /_tasks/yzkWe25WQr291Fa9k2S0vg:1766403051不断执行,你会发现删除的数据在不断增加。
取消单个迁移任务
POST _tasks/node_id:task_id/_cancel取消全部的删除数据任务
POST _tasks/_cancel?actions=*delete/byquery
# 参数解释如下:
# wait_for_completion=false : 开启异步
# scroll_size=2000 : 删除文档数
# slices=2 : 线程数量
# conflicts=proceed : 有冲突不中断继续执行
POST monitor_user_log_info/_delete_by_query?wait_for_completion=false&conflicts=proceed&scroll_size=10000&slices=10
{"query":{"bool":{"filter":[{"range":{"createTime":{"from":"2020-09-01T00:00:00.000Z",
"to":"2020-09-31T23:59:59.000Z","include_lower":true,"include_upper":true,"boost":1.0}}}],"adjust_pure_negative":true,"boost":1.0}},"track_total_hits":2147483647}