基于l 版本。

1、osd 状态

ceph -s

active:PG 处于活动状态,正在处理读写请求。
clean:PG 中的所有对象都是最新的,所有副本都已同步,没有缺失或未完成的操作。
scrubbing:PG 正在进行数据校验过程,确保所有数据都是一致的。Scrubbing 是定期的检查,以防止数据损坏。
deep:表示正在进行深度校验,这种检查比普通的 scrubbing 更深入,检查每个对象的完整性。
inconsistent:表示 PG 中存在不一致的对象,可能是由于写入冲突、网络分区或其他原因导致数据不同步。
acting: 状态指的是一组正在积极处理请求的 OSD(对象存储设备)。
peering 状态表示 PG(Placement Group)正在与其副本 OSD 建立或重新建立连接以同步数据。

remapped
表示 PG 中的数据已经被重新映射到新的 OSD。这通常发生在 OSD 故障、重新配置或数据迁移时。PG 将在新的 OSD 上存储数据,以确保数据的可用性和冗余性。

backfilling:
表示正在进行数据填充过程,将缺失的数据从其他 OSD 复制到新的 OSD。这个过程确保新映射的 OSD 拥有与其他副本相同的数据,恢复冗余性。

2、常用运维命令

ceph osd tree          # 查看crushmap,可以看到osd装填。
ceph osd metadata osd.23    # 查看osd的源数据信息能看到在哪台主机使用的哪个盘位。
ceph osd perf            # 查看磁盘延迟情况100-200ms需要注意,>200ms可能存在物理故障。

# 查看对应的osd进程
ceph-osd start 92
ceph osd status

3、踢出osd

ceph osd out 87
ceph osd crush remove osd.87
ceph auth del osd.87
ceph osd rm 87

4、加入新的osd到集群中

ceph-disk prepare /dev/sdX --cluster ceph --osd-id 92

--cluster-id    # 这个内容可以替换

5、故障修复

1、OSD_SCRUB_ERRORS 12 scrub errors 数据不一致修复。

找出数据不一致的pg。

~]# ceph health detail
HEALTH_ERR 12 scrub errors; Possible data damage: 10 pgs inconsistent
OSD_SCRUB_ERRORS 12 scrub errors
PG_DAMAGED Possible data damage: 10 pgs inconsistent
    pg 3.5f is active+clean+inconsistent, acting [8,95,42]
    pg 3.ac is active+clean+inconsistent, acting [42,71,12]
    pg 3.b9 is active+clean+inconsistent, acting [103,42,14]
    pg 3.16c is active+clean+inconsistent, acting [42,95,29]
    pg 3.1d9 is active+clean+inconsistent, acting [32,79,42]
    pg 3.397 is active+clean+inconsistent, acting [83,25,42]
    pg 3.448 is active+clean+inconsistent, acting [86,19,42]
    pg 3.472 is active+clean+inconsistent, acting [31,85,42]
    pg 3.51b is active+clean+inconsistent, acting [57,0,42]
    pg 3.614 is active+clean+inconsistent, acting [16,42,6]

找到pg先执行修复命令。

ceph pg dump | grep inconsistent
[root@st-ceph01 ~]# ceph  pg dump | grep inconsistent
dumped all
3.1d9      1229                  0        0         0       0 5207347200 1563     1563   active+clean+inconsistent 2024-09-29 22:20:48.723218   10718'1989810   10718:2399372  [32,79,42]         32  [32,79,42]             32  10718'1988855 2024-09-29 22:20:48.723083   10718'1988855 2024-09-29 22:20:48.723083             0 
3.b9       1160                  0        0         0       0 4947824658 1597     1597   active+clean+inconsistent 2024-09-30 01:34:35.561404   10718'7524742  10718:24576553 [103,42,14]        103 [103,42,14]            103  10718'7524306 2024-09-30 01:34:35.561309   10718'7524306 2024-09-30 01:34:35.561309             0 
3.ac       1163                  0        0         0       0 4928442368 1503     1503   active+clean+inconsistent 2024-09-29 06:24:03.359505   10718'6239021   10718:8596505  [42,71,12]         42  [42,71,12]             42   7267'6228706 2024-09-29 06:24:03.359428    7267'6228706 2024-09-29 06:24:03.359428             0 
3.5f       1209                  0        0         0       0 5190213632 1525     1525   active+clean+inconsistent 2024-09-29 21:39:21.401495  10718'33589929  10718:33959383   [8,95,42]          8   [8,95,42]              8 10712'33582312 2024-09-29 21:39:21.401409  10712'33582312 2024-09-29 21:39:21.401409             0 
3.16c      1253                  0        0         0       0 5325017105 1593     1593   active+clean+inconsistent 2024-09-30 09:00:30.353639   10718'2019828   10718:2453359  [42,95,29]         42  [42,95,29]             42  10718'2019656 2024-09-30 09:00:30.353529   10718'2019656 2024-09-30 09:00:30.353529             0 
3.397      1217                  0        0         0       0 5185437696 1567     1567   active+clean+inconsistent 2024-09-30 05:23:16.057308   10718'1667046   10718:2052636  [83,25,42]         83  [83,25,42]             83  10718'1666171 2024-09-30 05:23:16.057212   10718'1666171 2024-09-30 05:23:16.057212             0 
3.448      1209                  0        0         0       0 5133334016 1558     1558   active+clean+inconsistent 2024-09-30 04:09:53.672050   10718'2971177   10718:3367896  [86,19,42]         86  [86,19,42]             86  10718'2970647 2024-09-30 04:09:53.671988   10718'2970647 2024-09-30 04:09:53.671988             0 
3.472      1166                  0        0         0       0 4987686912 1532     1532   active+clean+inconsistent 2024-09-29 14:48:28.522790   10718'4650728  10718:26130155  [31,85,42]         31  [31,85,42]             31   7267'4647489 2024-09-29 12:30:46.064131    7267'4647489 2024-09-29 12:30:46.064131             0 
3.51b      1194                  0        0         0       0 5084989952 1504     1504   active+clean+inconsistent 2024-09-29 22:29:58.946472   10718'2215613   10718:3121361   [57,0,42]         57   [57,0,42]             57  10718'2214485 2024-09-29 22:29:58.946402   10718'2214485 2024-09-29 22:29:58.946402             0 
3.614      1171                  0        0         0       0 5002305536 1523     1523   active+clean+inconsistent 2024-09-29 22:06:17.096530   10718'7500492   10718:7964961   [16,42,6]         16   [16,42,6]             16  10718'7494126 2024-09-29 22:06:17.096429   10718'7494126 2024-09-29 22:06:17.096429             0
# 根据相应的pg id修复
ceph pg  repair 3.614