【HBase从入门到精通系列】误删数据如何抢救?

本文涉及的产品
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
云原生数据库 PolarDB PostgreSQL 版,企业版 4核16GB
推荐场景:
HTAP混合负载
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介: 前言 有时候我们操作数据库的时候不小心误删数据,这时候如何找回?mysql里有binlog可以帮助我们恢复数据,但是没有开binlog也没有备份就尴尬了。如果是HBase,你没有做备份误删了又如何恢复呢? 数据保护 当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下.

前言

有时候我们操作数据库的时候不小心误删数据,这时候如何找回?mysql里有binlog可以帮助我们恢复数据,但是没有开binlog也没有备份就尴尬了。如果是HBase,你没有做备份误删了又如何恢复呢?

数据保护

当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下命令:

alter 't', { NAME => 'f', KEEP_DELETED_CELLS => TRUE }

如果误删一张表的有多个family里的数据,需要都执行一下:

alter 'tt', { NAME => 'f1', KEEP_DELETED_CELLS => TRUE }, { NAME => 'f2', KEEP_DELETED_CELLS => TRUE }

设置 KEEP_DELETED_CELLS 为 True 的目的在于防止数据被物理删除。这里有必要解释一下HBase清理数据的原理:

  • 首先HBase是一个LSM架构,不断发生着数据文件的写入和合并
  • 当删除操作发生时,不会去清理数据文件中的数据,而是写入一个删除标记到新文件中。
  • 当某一刻major compaction发生时,在合并文件的同时会根据删除标记清理数据,新合并出来的数据文件不会再有旧数据。

KEEP_DELETED_CELLS 的作用就是在major compaction发生的时候,决定要不要清理旧数据。这里需要注意一点,即便 KEEP_DELETED_CELLS 设置为True,数据仍然会因为过期而被清理(HBsae表中的TTL属性)。这个设定无可厚非,既然过期了,误删不误删也无所谓了。

数据恢复

数据恢复的前提数据没有被物理删除,也就是上文提及的。你只需要在查询(Scan)的时候,指定raw模式来搜索数据,就能看到被删除的数据,之后你要做就是把数据再写入一次。我们来看一个简单的例子,还是以hbase shell为例子:

1.首先我们准备几行数据

hbase(main):020:0> scan 't'
ROW                                COLUMN+CELL
 x.row1                            column=f:c1, timestamp=1528449361490, value=value1
 x.row2                            column=f:c2, timestamp=1528449372090, value=value2
 x.row3                            column=f:c3, timestamp=1528449378971, value=value3
 y.row1                            column=f:c1, timestamp=1528449387923, value=value1
 y.row2                            column=f:c2, timestamp=1528449394742, value=value2
5 row(s)
Took 0.0304 seconds

2.然后我们删掉y开头掉数据

hbase(main):024:0> delete 't', 'y.row1', 'f:c1'
Took 0.0212 seconds
hbase(main):025:0> delete 't', 'y.row2', 'f:c2'
Took 0.0043 seconds

3.查一下,现在只有3行了

hbase(main):026:0> scan 't'
ROW                                COLUMN+CELL
 x.row1                            column=f:c1, timestamp=1528449361490, value=value1
 x.row2                            column=f:c2, timestamp=1528449372090, value=value2
 x.row3                            column=f:c3, timestamp=1528449378971, value=value3
3 row(s)
Took 0.0079 seconds

4.现在我们带上raw再次查找数据,不仅能看到被删除数据,还能看到删除标记。

hbase(main):047:0> scan 't', { TIMERANGE => [0, 1528450107075], RAW => true}
ROW                                COLUMN+CELL
 x.row1                            column=f:c1, timestamp=1528449361490, value=value1
 x.row2                            column=f:c2, timestamp=1528449372090, value=value2
 x.row3                            column=f:c3, timestamp=1528449378971, value=value3
 y.row1                            column=f:c1, timestamp=1528449387923, type=Delete
 y.row1                            column=f:c1, timestamp=1528449387923, value=value1
 y.row2                            column=f:c2, timestamp=1528449394742, type=Delete
 y.row2                            column=f:c2, timestamp=1528449394742, value=value2
5 row(s)
Took 0.0091 seconds

这里我设置了TIMERANGE, 指定的是数据写入的时间。对于我这个case其实并没有什么用,我只是想说明几点:

  • 即便不设置RAW,也可以通过时间搜索到被删数据。比如数据写入时间是T,delete时间是T+2,那么查找[0, T+1]的话就能看见数据。前提是设置了 KEEP_DELETED_CELLS=TRUE
  • 如果你后续写入重复的Key,那你必须指定好TIMERANGE,不然你可能看到的不是原先删除的keyVlaue。
  • delete操作默认的时间不是当前server的时间,也不是构造Delete对象的时间,而是被删除的这个keyValue的写入时间。当然这个得看版本,测试时候发现1.x和2.x还是不一样的,有点坑,还以为高版本不能仅通过TIMERAGE搜素被删数据了。
  • 如果你的Delete mark的时间和数据的时间一样,那只能通过RAW看到。

数据恢复完,建议关闭KEEP_DELETED_CELLS,节省空间,提高查询效率。

其他

  • 上文使用的是hbase shell演示,你可以使用任何语言的API完成上面的操作。
  • 如果你使用的是云HBase,即便因为major compaction物理删除了数据,只要你开启了备份功能,依然可以恢复。
相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
9月前
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
152 0
|
14天前
|
存储 Java 分布式数据库
HBase构建图片视频数据的统一存储检索
HBase构建图片视频数据的统一存储检索
|
2月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版操作报错合集之使用 Event Time Temporal Join 关联多个 HBase 后,Kafka 数据的某个字段变为 null 是什么原因导致的
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
49 0
|
2月前
|
SQL 消息中间件 Kafka
实时计算 Flink版操作报错合集之使用 Event Time Temporal Join 关联多个 HBase 后,Kafka 数据的某个字段变为 null 是什么原因导致的
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
47 0
|
2月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
2月前
|
存储 算法 分布式数据库
HBase的数据压缩是如何实现的?
HBase的数据压缩是如何实现的?
79 0
|
2月前
|
分布式数据库 Hbase
HBase的数据删除是如何进行的?
HBase的数据删除是如何进行的?
173 0
|
2月前
|
存储 分布式计算 Hadoop
HBase的数据访问是如何进行的?
HBase的数据访问是如何进行的?
39 0
|
2月前
|
存储 负载均衡 分布式数据库
HBase的数据分布是如何进行的?
HBase的数据分布是如何进行的?
69 0
|
2月前
|
分布式数据库 Hbase
HBase 清空表数据
HBase 清空表数据
80 0