CDH在云上利用文件存储HDFS实现存储计算分离

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
云备份 Cloud Backup,100GB 3个月
简介: 阿里云文件存储HDFS服务是阿里云专门针对先进的存储计算分离架构下的大数据分析场景定制推出的文件存储服务。文件存储HDFS采用全自研的底层架构,有效规避了开源HDFS系统的诸多短板,并提供标准的HDFS访问协议,用户无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、高可靠和高可用等特性的托管型分布式文件系统。

阿里云文件存储HDFS服务是阿里云专门针对先进的存储计算分离架构下的大数据分析场景定制推出的文件存储服务。文件存储HDFS采用全自研的底层架构,有效规避了开源HDFS系统的诸多短板,并提供标准的HDFS访问协议,用户无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、高可靠和高可用等特性的托管型分布式文件系统。CDH是Cloudera公司出品的Hadoop开源版本,广泛应用于大数据分析场景中。利用阿里云文件存储HDFS,用户可以方便的在云上实现存储计算分离架构,降低系统的整体拥有成本的同时,享受先进架构带来的各种优势。

背景介绍

在大数据分析场景中的部署形态大体上可以分为两类:融合部署和分离部署。

  • 融合部署指的是计算和存储部署在一个集群中。
  • 分离部署指的是计算和存储分别部署在不同的集群中。
    1567406591162_a88dfd82_304e_4559_9e77_2c06507a1ce2_jpeg

作为大数据分析架构的先驱,Hadoop早期设计时将HDFS和上层计算引擎部署在一起。设计假设是在早期低速网络环境下可以利用数据本地化特性来提升作业性能。
随着10年来软件和硬件的不断演进,“数据本地化(data locality)”的收益在不断的减少。

  • 在许多大数据分析场景中,即使计算和数据存储部署在一个集群,分析引擎也无法受益于数据本地化。
  • 云服务商的内部网络速度从1G网络已经演进到25G甚至100G网络,带宽提升了100倍,用户态TCP和RDMA技术也开始在云网络中大规模应用,但是大数据分析基于的HDD磁盘速度并没有太大变化。在云环境下,内网的网络带宽已经不是性能的瓶颈。

将计算和存储分开可以简化操作,用户可以分别扩展和管理计算和存储系统。

  • 从集群扩展角度来说,随着业务的发展,集群的规模常常不能满足业务的需求。也许是数据规模超过了集群存储能力,也许是业务上对数据产出的周期提出新的要求导致计算能力跟不上。这就要求我们能随时应对集群存储空间不足或者计算能力不足的挑战。将计算和存储分离,可以更好地应对单方面的不足。如果将计算和存储混合部署,常常会因为为了扩存储而带来额外的计算扩容,这其实就是一种浪费;同理,只为了提升计算能力,也会带来一段时期的存储浪费。
  • 公共云计算服务的一个很大的特性是按需创建集群,也就是需要处理数据时才去创建集群,用完即可销毁,最大程度降低使用成本。这种模式很适合那些只需要每天定时进行数据处理的场景,例如产出每天报表等等。但是,融合部署模式无法支持这种使用模式,融合部署模式的集群释放后数据也就丢失。计算和存储分离可以很好地解决这个问题,计算集群可以随时使用随时创建,增加使用的灵活性。
  • 独立的HDFS存储系统可以实现多计算集群对同一数据湖的访问,以及不同业务计算资源的物理隔离,最大程度的保障业务稳定。如离线业务与实时业务的隔离场景,用户可以借助存储计算分离架构,为离线计算与实时计算建立两个独立物理集群,然后访问同一个的文件存储HDFS文件系统实例。独立的HDFS存储系统还可以让多个不同版本Hadoop集群分析底层同一份HDFS存储集群中的数据,满足了由于历史原因导致的业务系统依赖多版本Hadoop计算框架造成的多集群共存数据孤岛问题。
  • 存储计算分离以后,托管化的存储系统提供高可靠和弹性扩展,可以让用户更专注与计算本身,不再分散精力到HDFS系统的运维上。

如何构建系统

在线下实现存储计算分离是有一定门槛的,涉及已有硬件架构的大量更新。得益于云上资源的虚拟化和服务化以及高速内部网络,您可以在阿里云上轻松的构建存储计算分离。请参考已下专题文档,一步步构建:
1.CDH6数据迁移:https://help.aliyun.com/document_detail/127300.html
2.配置CDH6使用文件存储HDFS:https://help.aliyun.com/document_detail/127312.html
3.卸载并释放CDH6 HDFS服务使用的云盘:https://help.aliyun.com/document_detail/127418.html

性能测试

集群配置:

架构 计算资源 内存 Shuffle HDFS
存储计算分离集群配置 5 x 8 core 5 x 32 GB 250GB x 4 TB 云盘 阿里云HDFS 30TB
存储计算融合集群配置 5 x 8 core 5 x 32 GB 5.5TB本地盘 自建30TB

存储计算分离集群配置:1 master 8cpu 32GB、4 Slave 8cpu 32GB、每个节点4块250GB高效云盘、10TB 文件存储HDFS文件系统实例
存储计算融合集群配置:1 master 8cpu 32GB、4 Slave 8cpu 32GB、每个slave节点5.5T*4本地盘

软件版本:CDH6.0.1、Java 1.8

测试场景:

数据规模:100GB1000T
Driver主进程部署模式:cluster
spark并发度:2000
io.file.buffer.size: 64m

测试结果:

1572000627470_beeabb07_91aa_4a85_8697_b1997e5e332d
1572000641838_1f2c645f_2383_4cc3_a279_2879ec382754

分析:

在数据量相同,使用文件存储hdfs比使用本地磁盘搭建hdfs进行测试运行时间更快,而且各个测试阶段都有明显提升。特别是当数据量为1000g的时候,gendata阶段提升最明显。此时使用hadoop hdfs测试gendata项平均运行时间为1808.514s,而使用文件存储hdfs平均运行时间约为835s。通过监控可知,使用本地磁盘搭建的hdfs的读取吞吐最大值为1.9GB/s,而文件存储HDFS的读取吞吐最大值为2.69GB/s。这完全改变了存储计算分离架构的I/O性能一定低于存储计算混部架构的习惯性印象。同时在整个阶段中,使用文件存储hdfs的集群worker节点无需处理磁盘I/O,系统可以将跟多的CPU用在真是的计算负载上。

结语

我们可以看出,在云上CDH集群中,文件存储HDFS结合ECS可以在让存储计算灵活部署的前提下,让Spark性能得到了显著的提升。文件存储HDFS这个新的针对大数据分析的云存储产品可以极大地提升原有的大数据分析系统的使用感受。当然,除了Spark以外我们会持续推出其他大数据引擎与文件存储HDFS结合的最佳实践,欢迎大家试用文件存储HDFS

目录
相关文章
|
6月前
|
存储 分布式计算 Hadoop
Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
224 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
88 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
47 1
|
6月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
304 2
|
2月前
|
存储 分布式计算 资源调度
通过日志聚合将作业日志存储在HDFS中
如何通过配置Hadoop的日志聚合功能,将作业日志存储在HDFS中以实现长期保留,并详细说明了相关配置参数和访问日志的方法。
30 0
通过日志聚合将作业日志存储在HDFS中
|
3月前
|
存储 机器学习/深度学习 分布式计算
HDFS与网络附加存储(NAS)的比较
【8月更文挑战第31天】
95 0
|
4月前
|
存储 NoSQL 文件存储
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
|
4月前
|
存储 安全 文件存储
云上文件存储:重塑数据存储与管理的新纪元
绿色节能:随着全球对环境保护和可持续发展的重视,未来的云上文件存储将更加注重绿色节能。云服务商将采用更加高效的硬件设备和节能技术降低能耗;同时还将通过优化存储资源的利用率和减少数据传输量等方式进一步降低能耗和碳排放。 强化安全性:面对日益严峻的网络安全威胁和数据保护需求,未来的云上文件存储将进一步加强安全性保障。云服务商将采用更加先进的加密技术和安全防护措施确保数据的安全性和隐私性;同时还将建立完善的安全管理体系和应急响应机制以应对各种安全事件和突发事件。 结语 云上文件存储作为数据存储与管理的新趋势,正以其独特的优势和应用价值引领着数据存储行业的变革。随着技术的不断进步和应用场景
109 0
|
5月前
|
存储 分布式计算 NoSQL
|
6月前
|
存储 分布式计算 Hadoop
HDFS如何处理大文件和小文件的存储和访问?
HDFS如何处理大文件和小文件的存储和访问?
154 0