基于l 版本。
1、osd 状态
ceph -s
active:PG 处于活动状态,正在处理读写请求。
clean:PG 中的所有对象都是最新的,所有副本都已同步,没有缺失或未完成的操作。
scrubbing:PG 正在进行数据校验过程,确保所有数据都是一致的。Scrubbing 是定期的检查,以防止数据损坏。
deep:表示正在进行深度校验,这种检查比普通的 scrubbing 更深入,检查每个对象的完整性。
inconsistent:表示 PG 中存在不一致的对象,可能是由于写入冲突、网络分区或其他原因导致数据不同步。
acting: 状态指的是一组正在积极处理请求的 OSD(对象存储设备)。
peering 状态表示 PG(Placement Group)正在与其副本 OSD 建立或重新建立连接以同步数据。
remapped
表示 PG 中的数据已经被重新映射到新的 OSD。这通常发生在 OSD 故障、重新配置或数据迁移时。PG 将在新的 OSD 上存储数据,以确保数据的可用性和冗余性。
backfilling:
表示正在进行数据填充过程,将缺失的数据从其他 OSD 复制到新的 OSD。这个过程确保新映射的 OSD 拥有与其他副本相同的数据,恢复冗余性。
2、常用运维命令
ceph osd tree # 查看crushmap,可以看到osd装填。
ceph osd metadata osd.23 # 查看osd的源数据信息能看到在哪台主机使用的哪个盘位。
ceph osd perf # 查看磁盘延迟情况100-200ms需要注意,>200ms可能存在物理故障。
# 查看对应的osd进程
ceph-osd start 92
ceph osd status
3、踢出osd
ceph osd out 87
ceph osd crush remove osd.87
ceph auth del osd.87
ceph osd rm 87
4、加入新的osd到集群中
ceph-disk prepare /dev/sdX --cluster ceph --osd-id 92
--cluster-id # 这个内容可以替换
5、故障修复
1、OSD_SCRUB_ERRORS 12 scrub errors 数据不一致修复。
找出数据不一致的pg。
~]# ceph health detail
HEALTH_ERR 12 scrub errors; Possible data damage: 10 pgs inconsistent
OSD_SCRUB_ERRORS 12 scrub errors
PG_DAMAGED Possible data damage: 10 pgs inconsistent
pg 3.5f is active+clean+inconsistent, acting [8,95,42]
pg 3.ac is active+clean+inconsistent, acting [42,71,12]
pg 3.b9 is active+clean+inconsistent, acting [103,42,14]
pg 3.16c is active+clean+inconsistent, acting [42,95,29]
pg 3.1d9 is active+clean+inconsistent, acting [32,79,42]
pg 3.397 is active+clean+inconsistent, acting [83,25,42]
pg 3.448 is active+clean+inconsistent, acting [86,19,42]
pg 3.472 is active+clean+inconsistent, acting [31,85,42]
pg 3.51b is active+clean+inconsistent, acting [57,0,42]
pg 3.614 is active+clean+inconsistent, acting [16,42,6]
找到pg先执行修复命令。
ceph pg dump | grep inconsistent
[root@st-ceph01 ~]# ceph pg dump | grep inconsistent
dumped all
3.1d9 1229 0 0 0 0 5207347200 1563 1563 active+clean+inconsistent 2024-09-29 22:20:48.723218 10718'1989810 10718:2399372 [32,79,42] 32 [32,79,42] 32 10718'1988855 2024-09-29 22:20:48.723083 10718'1988855 2024-09-29 22:20:48.723083 0
3.b9 1160 0 0 0 0 4947824658 1597 1597 active+clean+inconsistent 2024-09-30 01:34:35.561404 10718'7524742 10718:24576553 [103,42,14] 103 [103,42,14] 103 10718'7524306 2024-09-30 01:34:35.561309 10718'7524306 2024-09-30 01:34:35.561309 0
3.ac 1163 0 0 0 0 4928442368 1503 1503 active+clean+inconsistent 2024-09-29 06:24:03.359505 10718'6239021 10718:8596505 [42,71,12] 42 [42,71,12] 42 7267'6228706 2024-09-29 06:24:03.359428 7267'6228706 2024-09-29 06:24:03.359428 0
3.5f 1209 0 0 0 0 5190213632 1525 1525 active+clean+inconsistent 2024-09-29 21:39:21.401495 10718'33589929 10718:33959383 [8,95,42] 8 [8,95,42] 8 10712'33582312 2024-09-29 21:39:21.401409 10712'33582312 2024-09-29 21:39:21.401409 0
3.16c 1253 0 0 0 0 5325017105 1593 1593 active+clean+inconsistent 2024-09-30 09:00:30.353639 10718'2019828 10718:2453359 [42,95,29] 42 [42,95,29] 42 10718'2019656 2024-09-30 09:00:30.353529 10718'2019656 2024-09-30 09:00:30.353529 0
3.397 1217 0 0 0 0 5185437696 1567 1567 active+clean+inconsistent 2024-09-30 05:23:16.057308 10718'1667046 10718:2052636 [83,25,42] 83 [83,25,42] 83 10718'1666171 2024-09-30 05:23:16.057212 10718'1666171 2024-09-30 05:23:16.057212 0
3.448 1209 0 0 0 0 5133334016 1558 1558 active+clean+inconsistent 2024-09-30 04:09:53.672050 10718'2971177 10718:3367896 [86,19,42] 86 [86,19,42] 86 10718'2970647 2024-09-30 04:09:53.671988 10718'2970647 2024-09-30 04:09:53.671988 0
3.472 1166 0 0 0 0 4987686912 1532 1532 active+clean+inconsistent 2024-09-29 14:48:28.522790 10718'4650728 10718:26130155 [31,85,42] 31 [31,85,42] 31 7267'4647489 2024-09-29 12:30:46.064131 7267'4647489 2024-09-29 12:30:46.064131 0
3.51b 1194 0 0 0 0 5084989952 1504 1504 active+clean+inconsistent 2024-09-29 22:29:58.946472 10718'2215613 10718:3121361 [57,0,42] 57 [57,0,42] 57 10718'2214485 2024-09-29 22:29:58.946402 10718'2214485 2024-09-29 22:29:58.946402 0
3.614 1171 0 0 0 0 5002305536 1523 1523 active+clean+inconsistent 2024-09-29 22:06:17.096530 10718'7500492 10718:7964961 [16,42,6] 16 [16,42,6] 16 10718'7494126 2024-09-29 22:06:17.096429 10718'7494126 2024-09-29 22:06:17.096429 0
# 根据相应的pg id修复
ceph pg repair 3.614