百度使用自主研发系统工具hdoctor 使SATA盘返修率低于SAS盘

简介: 据了解,百度近三年来一直使用其主导研发的系统工具hdoctor。该创新工具的应用,使SATA 硬盘的故障返修率低于比其成本及可靠性更高的SAS硬盘,有效地解决了在大数据时代,大规模大容量SATA硬盘应用背景下的高故障率、低运维效率和存储成本控制等难题,并对大幅降低云存储购置成本奠定坚实基础。

据了解,百度近三年来一直使用其主导研发的系统工具hdoctor。该创新工具的应用,使SATA 硬盘的故障返修率低于比其成本及可靠性更高的SAS硬盘,有效地解决了在大数据时代,大规模大容量SATA硬盘应用背景下的高故障率、低运维效率和存储成本控制等难题,并对大幅降低云存储购置成本奠定坚实基础。


大数据促硬盘故障问题凸显

如今,数据量迅速膨胀,据IDC统计,2012年全球数据总量已达到2.8ZB,而到2020年,预计将达到40ZB,相当于地球上所有海滩沙粒数量的57倍,地球上人均将拥有5247GB数据。海量数据让全球面临着数据存储方面的严峻挑战,这里面既有技术上的难题,也有来自成本方面的压力。而硬盘作为数据中心存储数据的核心部件之一,其返修率高、成本昂贵成为众多挑战中的主要难题。


据统计,在数据中心中,硬盘相关的故障占全部硬件故障的85%以上。随着大数据时代的到来,服务器数量大幅度增长,更多的存储需求、更低成本硬盘的使用,以及高温、高存储密度等技术的应用,硬盘故障及报废规模呈明显增加趋势。这对业务稳定、存储成本和运维效率都造成了严重的影响。如何降低返修率一直困扰业界。


因为存储着上百PB数据,百度——这家全球最大的中文搜索引擎公司拥有着数百万块硬盘,解决返修率问题极其迫切。也正是在这样的背景下,百度于三年前就自主创新,主导研发了系统工具hdoctor。


百度hdoctor五维度融合创新

hdoctor 最主要的成果是让SATA硬盘的返修率低于SAS硬盘。


众所周知,SATA硬盘的返修率高出SAS硬盘近40%以上,拿业界某知名硬盘厂商最新产品为例:企业级10k SAS硬盘的年返修率(AFR)是0.44%;近线级的7.2k SATA 硬盘的AFR为0.63%。而百度使用该工具后,不仅减少了60%的SATA硬盘返修率,实现了全部硬盘故障处理及报废擦除的全流程自动化,还通过与存储系统的调度管理集成,提前处理潜在故障的硬盘,大幅缩小了故障对业务影响,有效降低运维成本,及人力、物力投入。可以说,百度用更低成本得到了更高的质量保证。


之所以能实现如上成果,主要得益于hdoctor从五个维度融合创新:


第一,硬盘故障检测。hdoctor 通过日志增量监控,整合系统设置、报错类型、硬盘运行状态等检查环节,可在10秒内监控99% 的故障,覆盖全部的机型;经过多次验证,准确度与硬盘厂商采用的硬件检测分析方法(FA)相当。


第二,硬盘故障修复。能在60秒内修复SATA硬盘60%的故障,包括潜在故障扇区修复、文件系统坏块屏蔽、硬盘及阵列状态设置校正、硬盘状态未就绪或超时的处理、数据/硬件故障排除、盘符前后漂移复位等常见的运维故障处理。而在未使用hdoctor的情况下,因业务稳定性要求,一旦出现报错,业界的通常做法是更换硬盘,这使得维护代价十分高昂。


第三,硬盘故障预警。基于数十万片硬盘近30个月的硬盘运行及故障大数据,使用机器学习技术,挖掘、分析海量数据,打造了可自动迭代的故障预测系统,支持全部厂商所有型号的 SATA 硬盘故障预测,准确率超过98%;同时与系统调度集成,能够提前避免故障对业务造成不良影响,有效降低云存储系统的平均故障修复时间(MTTR)。


第四,硬盘报废擦除。终捍卫云端数据安全,集成三种国际认证的安全擦除方案,可在JBOD、RAID环境下,快速、高效、安全擦除包括SATA、SAS、SSD、Flash在内的各种存储介质。


第五,自动运维支持。hdoctor提供所有类型硬盘的故障检测、修复、上线、下线、报修、结单检测等全方位的自动化运维API,同时定期维护和校正硬盘的状态运行信息,而且工具本身的运行机制也是自反馈和自维护的。


据了解,hdoctor已历经了三个年头。基于每月积累的故障记录,以及与硬盘相关的预警、负载、功耗、性能、温度等数十亿级别的大数据,该工具不断地迭代升级,在降低故障率,提升运维效率和云存储系统可靠性的同时,有效助力硬盘资源调度、功耗管理、存储分级等软硬件协同工作,大规模降低云存储运营成本。


业内分析人士指出,百度hdoctor的创新成果具有极为重要的产业意义。它解决了大规模大容量SATA硬盘应用背景下的高故障率、低运维效率和存储成本控制等难题,为业界实现更低成本、更高质量数据存储起到示范与引领作用;更具未来发展意义的是,该工具的使用对未来将云盘、归档盘等低成本存储介质引入数据中心奠定了基础,能够使云存储购置成本大幅降低。百度的创新技术,打破了云计算和大数据产业发展中的一大阻碍,将有效推动产业更高速成长。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
Linux
百度搜索:蓝易云【Linux系统ps命令:查看正在运行的进程】
通过这些简洁的ps命令用法,你可以方便地查看Linux系统中正在运行的进程信息。
33 1
|
3月前
|
Ubuntu 安全 网络安全
百度搜索:蓝易云【Ubuntu系统SSH服务端配置】
现在,你已经成功在Ubuntu系统上配置了SSH服务端。这将允许其他计算机通过SSH协议连接到你的Ubuntu系统,并进行远程管理和操作。请注意,远程访问有安全风险,建议在生产环境中采取必要的安全措施来保护系统。
39 3
|
3月前
|
Linux
|
3月前
|
Ubuntu 网络安全
百度搜索:蓝易云【ubuntu系统ufw开放端口教程】
现在,你已经成功在Ubuntu系统中使用ufw开放了指定的端口。请确保只开放必要的端口,并注意网络安全。
82 3
|
3月前
|
存储 Ubuntu
百度搜索:蓝易云【在ubuntu系统下安装配置onedrive步骤】
现在,你已经成功在Ubuntu系统下安装和配置了OneDrive,可以使用该工具与OneDrive云端存储进行同步。
40 0
|
3月前
|
Ubuntu
百度搜索:蓝易云【Ubuntu系统apt添加第三方PPA源教程】
现在,你已经成功在Ubuntu系统中添加了第三方PPA源。系统将会从该源获取更新和软件包。请注意,添加第三方PPA源时要确保其来源可信,以免引入不安全的软件包。
40 5
|
3月前
|
Ubuntu
百度搜索:蓝易云【Ubuntu系统永久自动挂载硬盘或分区教程】
现在,Ubuntu系统将会在每次启动时自动挂载指定的硬盘或分区,并且挂载将保持永久有效。请确保配置 `fstab`文件时使用正确的UUID和挂载目录名,以免出现挂载错误。
57 7
|
3月前
|
Ubuntu 测试技术 Linux
百度搜索:蓝易云【Ubuntu系统打RT实时内核补丁教程】
现在,你已经成功在Ubuntu系统上打上RT实时内核补丁,并且系统将使用RT内核运行,提供更好的实时性能。请注意,内核编译和替换是一项复杂的操作,建议在实施前备份重要数据,并在测试环境中进行验证。
34 2
|
3月前
|
Ubuntu 网络协议
百度搜索:蓝易云【ubuntu系统如何设置静态IP地址?】
现在,你已经成功在Ubuntu系统中设置了静态IP地址。系统将使用指定的静态IP地址进行网络连接。
30 0
|
3月前
|
Ubuntu Shell
百度搜索:蓝易云【Ubuntu系统如何设置开机自启动shell脚本?】
现在,你的Shell脚本将会在Ubuntu系统开机时自动执行。请确保脚本中的逻辑是正确的,以免对系统造成不必要的影响。
32 0