作者: dba-kit



现象

业务反馈查询 TiFlash 报错:No access path for table 'dwd_id_mapping' is found with 'tidb_isolation_read_engines' = 'tiflash,tidb', valid values can be 'tikv'.

到集群中查看了一下,确实这个表的副本一直处于同步状态,但是进度一直没有发生变化。

记一起 TiFlash 副本同步被卡住的问题_storage


看了下 PLACEMENT POLICY 状态,确实也处于 INPROGRESS状态

记一起 TiFlash 副本同步被卡住的问题_operator_02


但是通过 pd-ctl来看,scheduler的状态是正常的,但是 operator show 发现并没有待执行的operator的存在。

记一起 TiFlash 副本同步被卡住的问题_truncate_03


根因分析

根据上述表现分析说明, PD 根本没有产生operator,肯定是调度的某个条件没有满足导致的,联想到昨天做的唯一操作是:由于TiFlash 配置失效问题**,调整了 TiFlash Write 节点的storage.main.capacity配置,将其设置为比当前使用量略大的值。**大概率是和这个动作有关系,根据low-space-ratio参数介绍的描述,当节点的空间占用比例超过该阈值时,PD 会尽可能避免往该节点迁移数据。

记一起 TiFlash 副本同步被卡住的问题_truncate_04


修复方案

通过pdctl show config看到当前配置的schedule.low-space-ratio: 0.88,通过执行config set low-space-ratio 0.98将其修改为 0.98 后,过了几分钟 TiFlash 副本就同步完成了,后续查询也没有继续报错了。

PS:至于为什么这个表的 TiFlash 副本需要重新同步,是因为每天业务都会TRUNCATE 该表重新插入数据,admin show ddl jobs也可以佐证,之前每次 TRUNCATE 后,TiFlash 会自动更新副本状态,但是今天一直被卡住。


记一起 TiFlash 副本同步被卡住的问题_tiflash_05