【分布式存储数据恢复】hbase和hive数据库数据恢复案例

分布式存储数据恢复环境:

16台物理服务器,每台物理服务器上有数台虚拟机;

虚拟机上配置分布式,上层部署hbase数据库和hive数据库

分布式存储故障&分析:

除数据库底层文件,数据库不能使用。需要恢复hbase和hive数据库。

通过现场对用户环境的检测,数据恢复工程师发现虚拟机还可以正常启动,虚拟机上的数据库块文件丢失。块文件丢失之后没有新的数据写入操作,底层的数据损坏可能性比较小。

分布式存储数据恢复过程:

1、备份。

对物理服务器底层做备份。通过网络直接备份虚拟机底层磁盘文件。

准备一台服务器,以只读方式挂载所有服务器硬盘,使用磁盘备份工具进行扇区级别的备份。

2、分析块文件结构。

分析每个虚拟机磁盘的块文件&文件底层的聚合方式&每个磁盘中数据的分布情况。

3、分析Block文件key。

定位&提取并解析数据库文件中key信息,整合数据库文件key信息。

4、拼接Block文件。

根据Block文件的key信息提取文件片段,拼接提取出来的Block文件片段并校验拼接出来的Block文件的正确性。

5、导入Block文件。

校验提取出的Block文件完整性及正确性并把提取出来的Block文件导入到hbase和hive数据库中。

6、验证数据。

在北亚数据恢复工程师的协助下,由用户对恢复出来的数据进行验证。如果发现问题,重新检验上述所有过程。