转载自:http://www.mongoing.com/eshu_point_in_time_recovery
在生产环境中,尽管我们尽力避免,但是还是会遇到误操作或是其他情况的出现。
这时候我们就需要进行Point in time recovery了。
我们point in time recovery 是基于oplog进行的,所以请确保oplog的size足够大,也请确保定时有冷备份(或是延时备份)
切记:在出现问题的时候,我们第一时间要做的时保护犯罪现场,停止应用写入,保护数据库数据与状态。有可能的话,在进行恢复之前,将现在的oplog进行一次全备份,也将现在数据进行一次全备份。
以下是通过冷备份+oplog进行point in time recovery的例子(例子仅供参考,实际中请根据情况来操作,过程需严谨。):
1.首先我们往一个collection里插入数据。
1
2
3
4
5
6
|
zhou1:
PRIMARY
> use test3
switched
to
db test3
zhou1:
PRIMARY
>
zhou1:
PRIMARY
>
for
(var i=0;i<1000;i++){
... db.a.save({
"a"
:i})
... }
|
2.让我们来检查下collection a中的数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
zhou1:
PRIMARY
> db.a.find()
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9b4"
),
"a"
: 0 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9b5"
),
"a"
: 1 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9b6"
),
"a"
: 2 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9b7"
),
"a"
: 3 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9b8"
),
"a"
: 4 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9b9"
),
"a"
: 5 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9ba"
),
"a"
: 6 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9bb"
),
"a"
: 7 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9bc"
),
"a"
: 8 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9bd"
),
"a"
: 9 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9be"
),
"a"
: 10 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9bf"
),
"a"
: 11 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9c0"
),
"a"
: 12 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9c1"
),
"a"
: 13 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9c2"
),
"a"
: 14 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9c3"
),
"a"
: 15 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9c4"
),
"a"
: 16 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9c5"
),
"a"
: 17 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9c6"
),
"a"
: 18 }
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9c7"
),
"a"
: 19 }
Type
"it"
for
more
zhou1:
PRIMARY
> db.a.find().
count
()
1000
|
3.这时候我们将a表dump出来做备份。
1
|
# mongodump --port 37017 -d test3 -c a -o /tmp/test3/
|
4.我们再往a中插入一条document
1
2
3
|
zhou1:
PRIMARY
> db.a.save({a:19999})
zhou1:
PRIMARY
> db.a.find().
count
()
1001
|
5.删除a表中,a为10的document
1
2
3
|
zhou1:
PRIMARY
> db.a.remove({
"a"
:10})
zhou1:
PRIMARY
> db.a.find().
count
()
1000
|
6.再像a表中插入一条document
1
2
3
|
zhou1:
PRIMARY
> db.a.save({a:9999})
zhou1:
PRIMARY
> db.a.find().
count
()
1001
|
7.我们现在想要取消操作5(remove操作,假设其为误操作),但是不影响其他数据。
a.我们先整体备份oplog(保护犯罪现场,哈哈,防止出现其他问题,有可能的话,还可以将现在的数据进行一次备份,防止如果操作失败造成的数据问题。)
1
|
# mongodump --port=37017 -d local -c oplog.rs -o /tmp/oplog/
|
b.再取出dump之后到删除之前的oplog。
先根据时间戳和操作特性找到操作5的ts
1
2
|
zhou1:
PRIMARY
> db.oplog.rs.find({
"op"
:
"d"
,
"ns"
:
"test3.a"
,},{ts:1}).pretty()
{
"ts"
:
Timestamp
(1415928580, 1) }
|
再根据这个ts 和dump的时间ts 来查询dump之后,删除之前的oplog。
1
2
3
4
5
6
7
8
9
10
11
12
|
zhou1:
PRIMARY
> db.oplog.rs.find({ts:{$lt:
Timestamp
(1415928580, 1),$gt:
Timestamp
(1415928529, 1000)}}).pretty()
{
"ts"
:
Timestamp
(1415928569, 1),
"h"
: NumberLong(
"-4718889676574368147"
),
"v"
: 2,
"op"
:
"i"
,
"ns"
:
"test3.a"
,
"o"
: {
"_id"
: ObjectId(
"54655af9e6e268b4ebe284c5"
),
"a"
: 19999
}
}
|
由于生产环境中会是很多操作,所以将其dump出来。
1
|
# mongodump --port 37017 -d local -c oplog.rs -q '{ts:{$lt:Timestamp(1415928580, 1),$gt: Timestamp(1415928529, 1000)}}' -o /tmp/oplog1/
|
再同理找到操作5之后的操作。将其dump出来
1
|
mongodump --port 37017 -d
local
-c oplog.rs -q
'{ts:{$gt:Timestamp(1415928580, 1)}}'
-o
/tmp/oplog2/
|
8.可以进行恢复了,删除a表,并用3操作中的dump file 进行恢复
1
|
# mongorestore --port 37017 -d test3 -c a /tmp/test3/test3/a.bson
|
检查下
1
2
3
4
|
zhou1:
PRIMARY
> db.a.find().
count
()
1000
zhou1:
PRIMARY
> db.a.find({a:10})
{
"_id"
: ObjectId(
"54655693f169ef6a4b9cf9be"
),
"a"
: 10 }
|
我们发现,数据恢复到操作5之前了。
9.我们先将7操作中备份的oplog1 恢复到其他机器的mongodb local数据库中(原先无oplog.rs表的)。
在使用mongooplog 来恢复我们dump数据到remove操作这段时间内的数据。
1
2
3
4
5
6
7
8
|
# mongooplog
--port=37017 -d test3 -c a --from xxxx(oplog1恢复到的机器)
zhou1:
PRIMARY
> use test3
switched
to
db test3
zhou1:
PRIMARY
> db.a.find().
count
()
1001
zhou1:
PRIMARY
> db.a.find({a:19999})
{
"_id"
: ObjectId(
"54655af9e6e268b4ebe284c5"
),
"a"
: 19999 }
|
10.将之前恢复了oplog1的机器的oplog.rs删除,并恢复oplog2.
使用mongooplog 来恢复我们remove操作之后的数据变动。
1
2
3
4
5
6
7
8
|
# mongooplog
--port=37017 -d test3 -c a --from xxxx(oplog1恢复到的机器)
zhou1:
PRIMARY
> use test3
switched
to
db test3
zhou1:
PRIMARY
> db.a.find().
count
()
1002
zhou1:
PRIMARY
> db.a.find({a:9999})
{
"_id"
: ObjectId(
"54655b0fe6e268b4ebe284c6"
),
"a"
: 9999 }
|
至此,我们整个的point in time recovery 便完成了。
本文转自UltraSQL51CTO博客,原文链接:http://blog.51cto.com/ultrasql/1680402 ,如需转载请自行联系原作者