【数据库运维】hdfs,10T硬盘被撑爆

简介: 【数据库运维】hdfs,10T硬盘被撑爆

正文


最近遇到一个很坑,我一个 6 节点的分布式数据库,一个节点 10T 的硬盘,经过一层又一层的手动翻 hdfs 本地目录去找大文件,终于找到源头,一个 dncp-block-verification.log.curr 占了 5.6T,心中一个个问号冒出来时,非常义愤填膺:这玩意也能撑这么大?比我数据文件还要大?


11.webp.jpg

image.png


今天才假期第二天,客户那边就来催了,“解决方案商量好了吗?”,我赶紧在本地虚拟机上再尝试复现一下——虽然解决方案已经出来了,把那两个文件删了就行了,但毕竟是生产环境,不敢随便删除,还是稳点好。


回过头来,这其实是一个 老版本 hdfs 的 bug,在新版本之后已经修复了,我们关掉 Datanode 把这两个特别大的日志删了就行了。


另附上正统的解法:


One solution, although slightly drastic, is to disable the block scanner entirely, by setting into the HDFS 
DataNode configuration the key `dfs.datanode.scan.period.hours` to `0` (default is `504` in hours). The 
negative effect of this is that your DNs may not auto-detect corrupted block files (and would need to wait 
upon a future block reading client to detect them instead); this isn't a big deal if your average replication is 3-
ish, but you can consider the change as a short term one until you upgrade to a release that fixes the issue.
Note that this problem will not happen if you upgrade to the latest CDH 5.4.x or higher release versions, 
which includes the [HDFS-7430](https://issues.apache.org/jira/browse/HDFS-7430) rewrite changes and 
associated bug fixes. These changes have done away with the use of such a local file, thereby removing the 
problem.


目录
相关文章
|
3月前
|
存储 关系型数据库 MySQL
RDS MySQL 数据库运维简述
从运维的视角,汇总云数据库RDS MySQL使用的避坑指南。文章初版,维护更新,欢迎指点。
901 3
|
2月前
|
SQL 运维 关系型数据库
MySQL数据库运维第一篇(日志与主从复制)
MySQL数据库运维第一篇(日志与主从复制)
|
10天前
|
运维 关系型数据库 MySQL
"MySQL运维精髓:深入解析数据库及表的高效创建、管理、优化与备份恢复策略"
【8月更文挑战第9天】MySQL是最流行的开源数据库之一,其运维对数据安全与性能至关重要。本文通过最佳实践介绍数据库及表的创建、管理与优化,包括示例代码。涵盖创建/删除数据库、表结构定义/调整、索引优化和查询分析,以及数据备份与恢复等关键操作,助您高效管理MySQL,确保数据完整性和系统稳定运行。
25 0
|
29天前
|
测试技术 数据库 容器
开发与运维测试问题之操作数据库进行DAO层测试如何解决
开发与运维测试问题之操作数据库进行DAO层测试如何解决
|
3月前
|
SQL 运维 监控
如何做数据库自动化运维
【5月更文挑战第5天】IT运维中的DBA面临诸多挑战,包括库表设计规范落地困难、SQL审核繁琐、数据提取需求频繁、资源管理和监控复杂。为解决这些问题,引入数据库自动化运维平台至关重要。该平台实现SQL审核自动化,确保语句规范和安全,支持数据提取的自助服务,强化元数据管理,提供一键资源部署,并进行全面的数据库监控。这样,DBA的角色转变为平台管理者,提高效率,规范化流程,减轻工作负担。
|
3月前
|
缓存 运维 关系型数据库
运维角度浅谈MySQL数据库优化
运维角度浅谈MySQL数据库优化
|
3月前
|
运维 Prometheus 监控
矢量数据库系统监控与运维:确保稳定运行的关键要素
【4月更文挑战第30天】本文探讨了确保矢量数据库系统稳定运行的监控与运维关键要素。监控方面,关注响应时间、吞吐量、资源利用率和错误率等指标,使用Prometheus等工具实时收集分析,并有效管理日志。运维上,强调备份恢复、性能调优、安全管理和自动化运维。关键成功因素包括建立全面监控体系、科学的运维策略、提升运维人员技能和团队协作。通过这些措施,可保障矢量数据库系统的稳定运行,支持业务发展。
|
11月前
|
SQL 关系型数据库 MySQL
开源数据库Mysql_DBA运维实战 (DCL/日志)
开源数据库Mysql_DBA运维实战 (DCL/日志)
|
8月前
|
运维 关系型数据库 MySQL
阿里大牛的595页MySQL笔记,透彻即系数据库、架构与运维
数据库运维的变革,经历从手工造到脚本化、系统化、平台化、智能化的转变,逐步实现DBA对数据库的规范化、自动化、自助化、可视化、智能化、服务化管理,从而保障数据库的安全、稳定、高效运行。
|
8月前
|
SQL 运维 安全
让数据库运维审计安全无死角
是谁修改了我的数据,动了我那些数据? 什么时候操作的?都有那些资产被修改了? 登录和修改得到批准了吗?如何获取到这个权限账号的?
64 0