本文PPT来自Intel研发经理、Hadoop committee成员郑锴于10月16日在2016年杭州云栖大会上发表的《海量数据分布式存储--Apache HDFS》。
目前,大数据正在迅猛地发展,同时大数据技术本身也在不断地发展和完善,以满足人们日益庞大的数据处理需求。这些需求主要体现以下这六个方面:
第一,大数据要存储和处理的数据量越来越庞大。
第二,人们对处理数据速度的期望越来越高。
第三,存储的场景更复杂和丰富。
第四,存储设备开始变得廉价、读取速度变得更快。
第五,网络带宽越来越高,10Gb的网络已经是标配,40Gb乃至100Gb也将到来。
第六,存储和计算相分离,大数据加速向云端迁移。
到目前为止,在HDFS的存储演化中相继出现了Cace缓存支持、HSM多层次存储体系、EC纠删码等等技术,极大地提高了HDFS的性能和安全性。在未来,HDFS将把重点转移到智能存储管理、对象存储和云端存储三大方面上。其中,智能储存管理能提供端到端储存解决方案,完整收集集群储存和数据访问信息,智能感知存储状态变化并作出策略调整;对象存储将使对象变得更为轻量,使其对一些场景更为友好;云端存储则利用统一的Hadoop文件系统API和快速弹性的HDFS缓存层使存储更为便利。相信随着Apache HDFS日益发展,海量数据分布式存储将变得更加便捷快速。