圣诞老人.png 当前演示环境基于下面博文部署进行演示: https://blog.51cto.com/wujianwei/12897010

一、mongodump和mongorestore高级企业应用(--oplog)

注意:这是replica set或者master/slave模式专用 --oplog:use oplog for taking a point-in-time snapshot

1.1 oplog介绍

在replica set中oplog是一个定容集合(capped collection),它的默认大小是磁盘空间的5%(可以通过--oplogSizeMB参数修改).位于local库的db.oplog.rs, 其中记录的是整个mongod实例一段时间内数据库的所有变更(插入/更新/删除)操作。 当空间用完时新记录自动覆盖最老的记录。 其覆盖范围被称作oplog时间窗口。需要注意的是,因为oplog是一个定容集合,所以时间窗口能覆盖的范围会因为你单位时间内的更新次数不同而变化。 想要查看当前的oplog时间窗口预计值,可以使用以下命令: rs.printReplicationInfo()

二、oplog企业级应用

2.1、实现热备,在备份时使用--oplog选项

注:为了演示效果我们在备份过程,模拟数据插入

2.2、准备测试数据

mongosh mongodb://127.0.0.1:27017/admin -u root -p 'TShLQd3tr74' --quiet

use testdb 
for(var i = 1 ;i < 100; i++) {
    db.foo.insert({a:i});
}

2.3、oplog配合mongodump实现热备

mongodump --port 27017 --oplog -o /data/backup

作用介绍:--oplog 会记录备份过程中的数据变化。会以oplog.bson保存下来 恢复:

mongorestore  --port 27017 --oplogReplay /data/backup

三、oplog高级应用

背景:每天0点全备,oplog恢复窗口为48小时 某天,上午9点world.city 业务表被误删除。 恢复思路: 0、停应用 2、找测试库 3、恢复昨天晚上全备 4、截取全备之后到world.city误删除时间点的oplog,并恢复到测试库 5、将误删除表导出,恢复到生产库

3.1、全备数据库

模拟原始数据:

mongosh mongodb://127.0.0.1:27017/admin -u root -p 'TShLQd3tr74' --quiet

use wo
for(var i = 1 ;i < 20; i++) {
    db.ci.insert({a: i});
}

全备:

cd /data/backup/
rm -rf *
mongodump --port 27017 --oplog -o /data/backup

--oplog功能: 在备份同时,将备份过程中产生的日志进行备份 文件必须存放在/data/backup下,自动命名为oplog.bson

再次模拟数据:

db.ci1.insert({id:1})
db.ci2.insert({id:2})

3.2、上午9点删除wo库下的ci表

09:00时刻,误删除

mongosh mongodb://127.0.0.1:27017/admin -u root -p 'TShLQd3tr74' --quiet
db.ci.drop()
show tables;

3.3、备份现有的oplog.rs表

mongodump --port 27017 -d local -c oplog.rs  -o /tmp/

3.4、截取oplog并恢复到drop之前的位置

更合理的方法: 登陆到原数据库

db.oplog.rs.find({op:"c"}).pretty();
it ;
{
    op: 'c',
    ns: 'wo.$cmd',
    ui: new UUID("1570fae5-043c-4439-a67b-4084c95c473c"),
    o: { drop: 'ci' },
    o2: { numRecords: 19 },
    ts: Timestamp({ t: 1735134396, i: 1 }),
    t: Long("1"),
    v: Long("2"),
    wall: ISODate("2024-12-25T13:46:36.419Z")
  }
  
获取到oplog误删除时间点位置:
ts: Timestamp({ t: 1735134396, i: 1 })

说明: 对于线上库这种在线查找误删除的时间点位置非常低效

建议采用下面的方法来确定误删除时间点位置: 将oplog.rs日志导出文件

/data/soft/mongodb-database-tools-rhel70-x86_64-100.10.0/bin/bsondump  /tmp/local/oplog.rs.bson >/tmp/oplog.txt

从文件 /tmp/oplog.txt 查找删除表前的记录:

[root@master-db01 bin]# egrep -i "drop" /tmp/oplog.txt |grep ci
{"op":"c","ns":"dbchengji.$cmd","ui":{"$binary":{"base64":"cKWZdntzTjK2Rx5IAOEu2g==","subType":"04"}},"o":{"drop":"city"},"o2":{"numRecords":{"$numberInt":"4079"}},"ts":{"$timestamp":{"t":1735133747,"i":5}},"t":{"$numberLong":"1"},"v":{"$numberLong":"2"},"wall":{"$date":{"$numberLong":"1735133747813"}}}
{"op":"c","ns":"dbchengji.$cmd","ui":{"$binary":{"base64":"QD5bSKZhSwqf7fAss3I6ow==","subType":"04"}},"o":{"drop":"city"},"o2":{"numRecords":{"$numberInt":"184"}},"ts":{"$timestamp":{"t":1735133824,"i":1}},"t":{"$numberLong":"1"},"v":{"$numberLong":"2"},"wall":{"$date":{"$numberLong":"1735133824021"}}}
{"op":"c","ns":"wo.$cmd","ui":{"$binary":{"base64":"FXD65QQ8RDmme0CEyVxHPA==","subType":"04"}},"o":{"drop":"ci"},"o2":{"numRecords":{"$numberInt":"19"}},"ts":{"$timestamp":{"t":1735134396,"i":1}},"t":{"$numberLong":"1"},"v":{"$numberLong":"2"},"wall":{"$date":{"$numberLong":"1735134396419"}}}

我们这里需要恢复删除的时间点:1735134396(不含该时间点)

3.5、恢复备份+应用oplog

覆盖掉前一天全备份文件中的oplog.bson文件:

cp  /tmp/local/oplog.rs.bson  /data/backup/oplog.bson

恢复到测试库中:

mongorestore --port 27017  --oplogReplay --oplogLimit "1735134396:1"  --drop   /data/backup/

说明: --oplogLimit "1735134396:1" 恢复结束的时间点,不包含该时间点

然后导出测试库中的表wo.ci 然后再恢复到线上得wo库中

到此处演示恢复完成