分布式存储环境:

Dell PowerEdge机架式服务器;
数据库类型:Hbase、Hive;
16台物理服务器。

故障:

16台服务器节点,在每台物理服务器上平均有3台虚拟机,在虚拟机上配置分布式,上层部署的hbase数据库和hive数据库。数据库底层文件被误删除,导致数据库不可用。管理员联系北亚数据恢复中心恢复hbase和hive数据库的数据。

分布式存储数据恢复过程:

经过现场对环境的简单检测,北亚数据恢复工程师发现虚拟机还可以正常启动,但是虚拟机上部署的数据库块文件丢失。块文件丢失之后整个集群环境没有新的数据写入,底层数据损坏可能性比较小,具有较大的可恢复性。由于还没有对底层结构进行分析,再加上hbase和hive的算法和底层结构十分复杂,恢复概率无法准确判断。

1、备份:

A、将存储设备断电、关机,对物理服务器底层做备份。

B、从虚拟机层面备份,通过网络直接备份虚拟机底层磁盘文件。

C、北亚数据恢复工程师准备了一台数据恢复服务器,在这台数据恢复服务器上以只读方式挂载原服务器的硬盘,使用北亚磁盘备份工具进行完整的扇区对扇区的备份。

D、备份完成后,由北亚数据恢复工程师提供详细报告,然后将原服务器硬盘交还给管理员。

如何删除有数据的hive表 hive 删除数据_数据恢复

 

2、块文件结构分析:
A、对每个虚拟机磁盘的块文件进行分析;
B、分析文件底层的聚合方式;
C、分析每个磁盘中数据的分布情况。

3、Block文件key分析:
A、定位数据库文件中的key信息;
B、提取并解析数据库文件中key信息;
C、整合数据库文件key信息。

4、Block文件拼接:
A、根据Block文件的key信息提取文件片段;
B、对Block文件的片段进行拼接;
C、校验拼接后的Block文件的正确性。

5、Block文件导入:
A、校验提取出的Block文件完整性及正确性;
B、把提取出来的Block文件导入到hbase和hive数据库中。

6、数据验证:
A、由管理员对恢复出来的数据进行详细验证;
B、如发现新问题,则复盘数据恢复过程查找问题原因并加以解决。

北亚数据恢复服务:
1、整个过程不会对原盘有任何的写操作,以确保原盘的数据安全;
2、尽最大可能保证服务的操作可逆,确保人力可控范围内操作可回溯;
3、提供后期数据保管和服务跟踪;
4、以上所有操作在有备份的情况下进行,若不成功不影响其他数据恢复方案的进行。

本次数据恢复周期:

如何删除有数据的hive表 hive 删除数据_如何删除有数据的hive表_02