【服务器数据恢复】H3C华三Ceph分布式存储文件丢失数据恢复案例

简介: 金海境科技专业从事数据中心数据恢复技术研发、产品销售和运维技术服务的高新技术企业。业务包含服务器数据恢复、分布式数据恢复、数据库数据恢复公司以IDC数据中心为核心业务方向,拥有文件系统底层架构解析核心技术,为超融合、虚拟化云平台、分布式存储、数据库以及勒索病毒加密等场景下的数据丢失提供数据恢复解决方案。

一:客户信息

海南某三甲医院

二:案例背景

什么是分布式文件系统

分布式文件系统(DistributedFile System,DFS)是一种能够在多台计算机之间共享文件存储资源的系统。它将文件存储在多个节点上,这些节点通常是位于不同地理位置的服务器或计算机集群。分布式文件系统的核心目标是提高文件存储的可靠性、可扩展性和性能,同时为用户提供透明的文件访问体验,仿佛文件是存储在单一的本地文件系统中一样。

Ceph的三种存储结构

对象存储:Ceph 提供 S3 和 Swift 兼容的RESTful API,用于存储和检索对象数据。

块存储:Ceph 提供块设备接口,支持虚拟机的块存储,如 KVM、OpenStack 等虚拟化平台。

文件系统:Ceph 提供一个 POSIX 兼容的文件系统(CephFS),支持传统的文件存储需求。

三:案例描述

近期我司遇到一个华三的分布式云平台,有三台物理机,每台物理机使用24块12TB的物理盘+3块1TB的闪存+2块480G的SSD系统盘,总容量为七百多TB,客户误操作删除了100TB的数据文件,云平台才用的是文件存储模式,通过NFS协议挂载传入数据。。

四:解决方案

**1.**应急响应

客户联系我们以后,我方技术团队面对这一紧急情况,立即让客户的运维团队启动应急预案,采取了以下措施:

1.紧急停机:首先,为避免进一步的数据损坏,立即停止了所有可能影响到Ceph集群的操作,包括数据写入和读取。

2.环境评估:对当前的Ceph分布式集群状态进行全面评估,确认受影响的范围及程度,包括哪些配置文件丢失,是否已造成数据损坏等。

**2.**恢复挑战

在服务器没有备份容灾的情况下进行数据恢复是**挑战性的,主要挑战包括:

无备份可用:传统的恢复方式依赖于已有的备份,而在没有备份的情况下,需要通过日志文件、元数据和其他剩余数据来重建丢失的配置。

系统复杂性:云平台与Ceph分布式存储的配置复杂,恢复过程中稍有不慎就可能造成数据的**性丢失。

时间紧迫:在实际业务环境中,服务的中断会带来巨大的损失,因此需要快速而准确地进行恢复。

**3.**案例评估

客户已经找过多家数据恢复公司进行恢复操作,虽未能成功恢复数据文件,但已经把三台物理机的87块硬盘全部镜像为虚拟磁盘的镜像文件。因为华三大多数都是使用的ceph来管理,我司对各个版本的ceph都有过底层解析,经过沟通客户选择相信我们,跳过现勘阶段,直接将装有镜像文件的硬盘送至我司进行数据提取。

**4.**恢复方案

1、初步解析

在工作站上使用winhex查看物理盘和闪存盘,发现底层为ceph分布式存储,其下层是基于bluestore的分布式结构,“上层”使用leveldb算法,“中间层”使用rocksdb运作。全局采用持久化的模式,算是一种标准化的新版ceph分布式存储系统。

Bluestore:

Leveldb:

告知客户2天内可让客户看见我司随机提取的数据文件。

2.恢复前的准备工作

1、从闪存盘获取leveldb数据库文件。

Leveldb-sst:

2、解析rocksdb的运作模式,可以理解为“16进制结构的表信息”。

Rocksdb:

3、获取所有物理盘的osd位图信息。

Osdmap:

3、获取必要信息

1、解析leveldb的表结构,依照特定的算法全盘获取持久化之前的meta_data(元数据)。

2、解析当前rocksdb的运作模式,通过meta_data中记录的信息与之关联。

3、将所有物理盘上的osd信息按照特定的结构全部获取,获取每段osd信息上的“ID”信息。

4、获取闪存盘上记录的文件head信息。

5、获取bluestore给每个对象分配的ID信息(包含文件名信息)。

4、分布式空间碎片组合

将获取的各种元数据信息导入到SQL数据库内

1、将rocksdb与meta_data进行关联,获取每块的空间信息

2、将head信息与空间信息进行关联,使得可以通过head去访问文件的在空间内的存储地址。

3、将从bluestore获取的对象ID信息与head关联。

4、将自建的SQL数据库与每块硬盘(osd)关联

5、通过ID→head→空间信息→获取分配的地址信息

5、开始数据文件的恢复提取

五:案例总结

经过紧张而有序的工作,我方技术团队终于成功恢复了Ceph分布式存储服务器集群的配置文件,并确保了整个系统环境的稳定运行。此次事件虽然惊心动魄,但也带来了宝贵的经验教训:

1. 加强备份管理:务必建立健全的备份机制,定期备份Ceph集群关键配置文件和数据,确保备份的完整性和可用性,以防不测。

2. 提高安全意识:合理设置管理员权限,加强运维人员的安全教育和培训,提升自身的运维能力和数据保护水平,降低人为错误的发生概率。

3. 完善应急预案:制定规范的操作流程,不断完善和优化应急预案,确保在紧急情况下能够迅速、有效地响应。

4. 加强监控与日志分析:开启日志审计功能,记录管理员的所有操作,便于追溯和排查问题,充分利用监控系统和日志分析工具,及时发现并处理潜在问题。

Ceph是当前非常流行的开源分布式存储系统,具有高扩展性、高性能、高可靠性等优点,同时提供块存储服务(rbd)、对象存储服务(rgw)以及文件系统存储服务(cephfs)。目前也是OpenStack的主流后端存储,和OpenStack亲如兄弟,为OpenStack提供统一共享存储服务。使用Ceph作为OpenStack后端存储,具有如下优点:

所有的计算节点共享存储,迁移时不需要拷贝根磁盘,即使计算节点挂了,也能立即在另一个计算节点启动虚拟机(evacuate)。

利用COW(Copy On Write)特性,创建虚拟机时,只需要基于镜像clone即可,不需要下载整个镜像,而clone操作基本是0开销,从而实现了秒级创建虚拟机。

Ceph RBD支持thin provisioning,即按需分配空间,有点类似Linux文件系统的sparse稀疏文件。创建一个20GB的虚拟硬盘时,最开始并不占用物理存储空间,只有当写入数据时,才按需分配存储空间。

当数据发生丢失时,金海境科技研发团队深入研究各种服务器和系统设计思路,认真对比故障类别,攻克疑难恢复案例,总结成功恢复经验,拥有成功修复服务器数据库,虚拟化平台,分布式存储等数据中心相关的上万个疑难案例,并掌握了勒索病毒恢复核心技术,所有恢复的数据不丢记录,结构完整,直接使用,不报错。

相关文章
|
21天前
|
存储 运维 固态存储
【服务器数据恢复】RAID阵列SSD固态硬盘故障导致互联网企业用户数据丢失数据恢复案例
深圳市某互联网科技公司,专注于生活服务类APP开发,平台注册用户超5000万,日均活跃用户800万,核心业务涵盖外卖配送、本地生活服务预订等。公司数据中心部署了30台浪潮NF5280M6服务器,采用“SSD+机械硬盘”混合存储架构,其中10台服务器配置4块2TB NVMe SSD组建RAID10阵列,专门存储用户基础信息、订单记录及支付数据,数据总量约15TB,直接关系到平台的正常运营及用户体验。
116 15
|
16天前
|
人工智能 前端开发 Unix
从CLI原理出发,如何做好AI Coding
本文探讨CLI类AI编程工具的产品美学与技术原理,分析其遵循Unix哲学的轻量、可组合、可集成特性,解析Single Agent架构与上下文工程的实践,并分享如何通过Prompt优化、任务拆解与团队对齐,高效利用CLI提升编码效率,展望AI时代人机协作的新范式。
215 10
从CLI原理出发,如何做好AI Coding
|
16天前
|
人工智能 监控 架构师
AI架构师的诞生:AI+传统DDD模式 = 实现开发效率提升75%
本文以淘宝闪购服务包系统为案例,探索如何借助 AI 技术辅助领域驱动设计(DDD)落地。
AI架构师的诞生:AI+传统DDD模式 = 实现开发效率提升75%
|
13天前
|
弹性计算 人工智能 安全
阿里云ECS服务器Alibaba cloud linux镜像系统版本有什么区别?操作系统选择方法
Alibaba Cloud Linux是阿里云推出的云原生操作系统,兼容CentOS生态,专为ECS实例优化。当前主要版本有2、3、4代,其中Alibaba Cloud Linux 3和4基于Anolis OS,分别使用5.10和6.6内核,支持dnf、Podman及OS Copilot智能助手。版本类型包括LTS(长期支持)、Pro(商业付费版,提供13年维护)、AI增强版、容器优化版、等保合规版、UEFI启动版及ARM架构版。建议优先选用Alibaba Cloud Linux 3或4,根据应用需求选择对应版本以获得更优性能与稳定性支持。
|
15天前
|
人工智能 自然语言处理 监控
2025 精选|免费 AI Agent 工具大盘点,轻松搞定日常琐事与商业流程
2025年,AI Agent成科技热点,免费工具助力个人与企业提效。本文盘点多款实用免费AI Agent,涵盖效率、协作、数据分析等场景,重点推荐从RPA进化而来的商业级工具实在Agent,助你轻松入门智能自动化时代。
|
16天前
|
人工智能 自然语言处理 语音技术
使用阿里云轻量应用服务器部署MaxKB教程,大语言模型和RAG的开源知识库问答系统
MaxKB是基于大语言模型与RAG的开源知识库问答系统,支持阿里云轻量应用服务器一键部署。本文详解从创建实例、登录配置到添加模型、构建知识库、创建应用及集成嵌入的全流程,助力快速搭建企业专属AI问答助手,实现智能服务零代码接入。
176 8
|
16天前
|
弹性计算 搜索推荐 异构计算
租用阿里云服务器一年要多少钱?38元、68元、99元和199元多个配置选择
阿里云服务器租用价格多样,轻量应用服务器38元起/年,ECS云服务器99元起/年,2核2G至8核32G多种配置可选,香港节点25元/月起,GPU服务器按需计费,活动优惠力度大,新老用户同享,详情可查官方活动页。
127 8
|
3月前
|
云栖大会
阿里云产品九月刊来啦
2025云栖大会重磅合集,阿里云各产品重大升级发布
189 31
|
16天前
|
SQL 存储 关系型数据库
从一条慢SQL说起:交易订单表如何做索引优化
本文首先以淘天电商交易订单表线上一条非典型慢 SQL 的深入剖析为切入点,示范如何系统地分析与排查慢 SQL;接着详尽归纳了索引分类、B+Tree 与 B‑Tree 的结构差异、B+Tree 高度估算方法、EXPLAIN 与 Query Profile 等诊断工具的使用,以及索引下推与排序的执行流程等索引优化理论;最后结合日常实践经验,提出了适用于大规模线上集群的索引变更 SOP,并总结了常见的慢 SQL 成因与相应的解决策略。
208 36
从一条慢SQL说起:交易订单表如何做索引优化