Ceph实验室:第五课:Ceph运维之换盘

简介: 在ceph集群里,磁盘出故障是不可避免,所以替换故障磁盘成为ceph日常运维不断重复的任务。本课程演示如何替换一个故障盘。

在ceph集群里,磁盘出故障是不可避免,所以替换故障磁盘成为ceph日常运维不断重复的任务。本课程演示如何替换一个故障盘。


定位故障磁盘

#MegaCli -PDList -aALL|grep "Media Error"
    Enclosure Device ID: 0  
    Slot Number: 3  
    Enclosure position: 0  
    Device Id: 2  
    Sequence Number: 2  
    Media Error Count: 227     <- 物理故障  
    Other Error Count: 2  
    Enclosure Device ID: 0  

定位故障OSD

#lsblk -i|grep /dev/sdc
/dev/sdc1 on /var/lib/ceph/osd/ceph-1

停止故障OSD

systemctl status ceph-osd@1.service

虽然osd.1的服务已停止,然而他任然被标记为IN(集群中)状态。只要他的状态还是IN,Ceph集群就不会为他触发数据恢复。默认情况下,ceph集群需要5分钟来将一个DOWN状态的磁盘标记为OUT状态,然后开始数据恢复。我们可以手工将故障OSD标记为OUT。一旦该OSD被标记为OUT,ceph集群会为该OSD上的PG启动恢复过程。

  • 当某个PG对应的OSD set中有一个OSD被标记为down时(假如是Primary被标记为down,则某个Replica会成为新的Primary,并处理所有读写 object请求),则该PG处于active+degraded状态,也就是当前PG有效的副本数是N-1。
  • 过了5秒之后,假如还是无法连接该OSD,则它被标记为out,Ceph会重新计算PG到OSD set的映射(当有新的OSD加入到集群时,也会重新计算所有PG到OSD set的映射),以此保证PG的有效副本数是N。
#ceph osd out osd.1
#ceph status

删除故障OSD

  • 从ceph CRUSH map中移除

#ceph osd crush rm osd.1 

  • 删除该osd的秘钥

#ceph auth del osd.1

  • 从ceph集群中删除该osd

#ceph osd rm osd.1

拔掉故障盘,插入新磁盘......................


重新组建 RAID

[root@hh-yun-ceph-cinder016-128056 ~]# MegaCli -CfgLdAdd -r0 [0:3] WB Direct -a0  
Adapter 0: Created VD 2  
Adapter 0: Configured the Adapter!!  
Exit Code: 0x00

创建OSD,加入集群

#ceph-deploy disk list ceph-node1
#ceph-deploy disk zap ceph-node2:sdc
#ceph-deploy --overwrite-conf osd create ceph-node1:sdc

一旦OSD加入到集群,ceph会执行回填backfilling操作,他会将PG从第二OSD上移到这个新的OSD上。

参考资料

https://www.ustack.com/blog/ceph_infra/


目录
相关文章
|
存储 运维 关系型数据库
2024年最全ceph的功能组件和架构概述(2),Linux运维工程面试问题
2024年最全ceph的功能组件和架构概述(2),Linux运维工程面试问题
2024年最全ceph的功能组件和架构概述(2),Linux运维工程面试问题
|
运维 块存储
Ceph实验室:第六课:Ceph运维之横向扩展
Ceph支持在一个已有的集群中增加一个带有一组磁盘的新节点来扩展其容量,而且在服务部宕机的情况下进行扩展。
3475 0
|
5月前
|
数据采集 机器学习/深度学习 人工智能
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
382 0
|
2月前
|
人工智能 运维 安全
运维老哥的救星?AI 驱动的自动化配置管理新趋势
运维老哥的救星?AI 驱动的自动化配置管理新趋势
135 11
|
4月前
|
机器学习/深度学习 人工智能 运维
运维不背锅,从“自动修锅”开始:AI自动化运维是怎么回事?
运维不背锅,从“自动修锅”开始:AI自动化运维是怎么回事?
318 49
|
3月前
|
运维 Prometheus 监控
系统崩了怪运维?别闹了,你该问问有没有自动化!
系统崩了怪运维?别闹了,你该问问有没有自动化!
117 9
|
3月前
|
运维 监控 应用服务中间件
运维打铁: Ruby 脚本在运维自动化中的应用探索
Ruby 是一种简洁、动态类型的编程语言,适合运维自动化任务。本文介绍了其在服务器配置管理、定时任务执行和日志分析处理中的应用,并提供了代码示例,展示了 Ruby 在运维自动化中的实际价值。
117 2
|
3月前
|
机器学习/深度学习 运维 监控
智能运维Agent:自动化运维的新范式
在数字化转型浪潮中,智能运维Agent正重塑运维模式。它融合人工智能与自动化技术,实现从被动响应到主动预防的转变。本文详解其四大核心功能:系统监控、故障诊断、容量规划与安全响应,探讨如何构建高效、可靠的自动化运维体系,助力企业实现7×24小时无人值守运维,推动运维效率与智能化水平全面提升。
658 0
|
3月前
|
运维 监控 安全
从实践到自动化:现代运维管理的转型与挑战
本文探讨了现代运维管理从传统人工模式向自动化转型的必要性与路径,分析了传统运维的痛点,如效率低、响应慢、依赖经验等问题,并介绍了自动化运维在提升效率、降低成本、增强系统稳定性与安全性方面的优势。结合技术工具与实践案例,文章展示了企业如何通过自动化实现运维升级,推动数字化转型,提升业务竞争力。
|
4月前
|
人工智能 缓存 运维
运维人不用秃头了?AI自动化配置管理了解一下!
运维人不用秃头了?AI自动化配置管理了解一下!
94 0

热门文章

最新文章