开发者社区> 传学> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

EMR使用OSS还是云盘HDFS存储的选择讨论

简介: 使用EMR如何选择数据存储方案,这里分别列举各种场景下两种方案的优缺点,各位可以根据实际情况,选择最合适自己业务的一种方式。
+关注继续查看

前言

由于看中了E-MapReduce(简称EMR)云产品的易用性(易开发、易运维、易集成)、低价、安全、高可用等特性,很多用户会选择把他们的线下的Hadoop集群迁移到EMR上来;也有一些企业,特别是一些初创企业,本身是没有线下集群的,也会选择在云上直接从无到有开发大数据应用。

目前EMR除了支持Hadoop原生的基于本地盘(或云盘)的HDFS,也支持使用OSS来存储数据。云盘和本地盘在使用方法上是一样的,也最容易被理解。OSS也可以作为和HDFS相同级别的数据存储方式,也为EMR数据存储提供了一个新的选择。那么使用OSS有什么优势,又有什么缺点,什么情况下我们会使用OSS来代替HDFS,到底使用什么存储方案,这是首先摆在我们面前的一个问题。

这里分别列举各种场景下两种方案的优缺点,各位可以根据实际情况,选择最合适自己业务的一种方式。

优缺点

上云迁移

对于两种存储方式而言,迁移方面可能有两方面的影响。
首先是数据迁移的方法而言。如果是迁移到HDFS,相当于是两个HDFS之间的迁移,可以使用Distcp。另外也可以使用Datax之类的工具,或者hadoop fs -get后拷贝过来再-put到新的HDFS上等。而如果是使用OSS来存储数据,OSS支持用Distcp拷入数据,也支持Datax(有OSSReader)。另外拷贝后用hadoop fs -put的方法写入数据的方法,也可以相应得替换成osscmd拷贝。以上看来两个方案没有太大的区别,但是考虑到网络是否可达,因为EMR的Worker节点没有公网IP,很多场景下需要比OSS的方案要做更多的工作。整体而言,数据迁移方面OSS略微胜出。
另外一部分需要考虑的是业务代码的迁移。如果直接使用HDFS,那业务代码上理论上不需要任何调整。而使用OSS存储数据的修改不过是在文件的路径上,把文件路径从HDFS的路径改成OSS的路径就可以了。相比而言需要少量的改动。

计算性能

根据测试,使用OSS存储数据计算上性能上略有降低。随着系统的优化,OSS存储数据的性能还会更好,对于性能要求不高的情况可以考虑使用OSS。不过现在推出的D1等机型配合EMR计算效果非常不错,对于性能比较看中且数据量较大的场景的可以用云盘上的HDFS的方案。

数据可用性

如果使用云盘+HDFS的方案,数据可用性依赖于云盘的可用性以及HDFS的冗余。如果是使用OSS,数据可用性可以参考OSS的SLA,目前可以保证99.99999999%的可用性。

弹性存储

如果数据存在HDFS上,如果数据写满后需要增加节点,目前EMR产品上没有现成的方法,需要用户自己购买机器并通过开源系统自己的方法添加节点并做rebalance,操作起来非常麻烦。但是如果使用OSS来存储数据,可以近似认为OSS的数据容量是无限的,不再需要考虑数据存储容量的问题。

弹性计算

使用OSS作为数据源,计算结束结果数据写回到OSS里,那集群就可以释放了。下个计算周期如果计算量增加,可以弹性得创建一个更大的集群(或者使用其他的机型来创建集群)来运行作业。后续EMR会支持在创建集群的时候选择竞价型实例,从而减少一笔费用。而如果是使用云盘HDFS的方案,上诉需求均无法实现。

计量计费

两种方案均支持包年包月的EMR付费模式。
使用OSS售价更低(OSS售价),而且再考虑到弹性存储(OSS只为实际存储的文件付费,使用云盘需要为整块云盘付费,而云盘需要为后续业务预留容量)和弹性计算(计算结束后释放整个集群,减少集群空置),实际上使用OSS的方案只会带来更低的成本。

数据湖与数据集成

如果数据存在HDFS上,外部数据参与计算需要先通过ETL导入到HDFS上。同样的,如果计算的结果要为外部应用所用,也需要导出来,多系统集成比较不便。如果是使用OSS来存储数据,各个应用之间统一使用OSS进行存储数据和管理,更方便搭建数据湖,并方便和其他的系统做数据交互。

冷数据与生命周期

如果数据存在HDFS上,当前暂时还没有有效的冷数据处理策略。对于数据的生命周期也是需要用户自行管理。但是如果存在OSS上,就可以用上OSS的生命周期管理功能,以及OSS的低频访问类型(Infrequent Access)与归档类型(Archive)支持。

总结

随着EMR和OSS的兼容做的越来越好和云计算网络环境的提升,OSS作为存储会越来越多得体现出其优势。对比两种方案,OSS方案最大的缺点是在读数据的时候性能低于HDFS,可以把数据的最初读取和最终的结果使用OSS,中间的临时计算变量放到HDFS上,可以一定程度上缓解这个问题。当然具体使用什么方案还需要根据实际情况选择最合适自己的才是最好的方案。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
不小心泄露了访问OSS的AccessKey该如何补救?
公司OSS上的资料仅允许公司内部访问,但是若AccessKey不小心泄露的话,任何人都可以通过AccessKey访问公司内部资源。最安全的办法就是更换accessKey,但公司业务太多,更换的成本很大。
5889 0
阿里云对象存储 OSS,不使用主账号,使用子账号来访问存储内容
https://help.aliyun.com/document_detail/31932.html?spm=5176.doc31929.2.5.R7sEzr   这个示例从一个没有任何Bucket的阿里云用户开始,以下内容中出现的AccessKey请替换成用户自己对应的AccessKey。
1317 0
OSS访问域名使用规则
OSS域名构成规则 针对OSS的网络请求,除了GetService这个API以外,其他所有请求的域名都是带有指定Bucket信息的三级域名组成的。 访问域名规则:BucketName.Endpoint。
8734 0
E-MapReduce的Presto组件默认支持访问oss数据
阿里云E-MapReduce从EMR-2.1.0版本镜像开始,Presto组件默认就支持访问oss数据了,不再需要引导操作额外支持。
2440 0
用引导操作打通presto访问oss数据
目前EMR Presto 已经完全支持 OSS 访问,如有其他 Presto 集群访问 OSS 需求,请安装 JindoFS SDK,可以直接访问 oss https://developer.aliyun.com/article/767222
5173 0
阿里云设置CDN加速访问OSS文件
快速配置OSS:https://help.aliyun.com/document_detail/31885.html?spm=5176.doc31886.6.97.8iuJo5 快速配置CDN:https://help.
1286 0
+关注
传学
传学,专注于大数据领域的解决方案
文章
问答
来源圈子
更多
作为全球云计算的领先者,阿里云为全球230万企业提供着云计算服务,服务范围覆盖200多个国家和地区。我们致力于为企业、政府等组织机构提供安全可靠的云计算服务,给用户带来极速愉悦的服务体验。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
阿里云 JindoFS+OSS 数据上云实战
立即下载
百问百答-OSS (上)
立即下载
百问百答-OSS (下)
立即下载