EMR使用OSS还是云盘HDFS存储的选择讨论-阿里云开发者社区

EMR使用OSS还是云盘HDFS存储的选择讨论

2018-01-17 7643

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 使用EMR如何选择数据存储方案，这里分别列举各种场景下两种方案的优缺点，各位可以根据实际情况，选择最合适自己业务的一种方式。

前言

由于看中了E-MapReduce（简称EMR）云产品的易用性（易开发、易运维、易集成）、低价、安全、高可用等特性，很多用户会选择把他们的线下的Hadoop集群迁移到EMR上来；也有一些企业，特别是一些初创企业,本身是没有线下集群的，也会选择在云上直接从无到有开发大数据应用。

目前EMR除了支持Hadoop原生的基于本地盘（或云盘）的HDFS，也支持使用OSS来存储数据。云盘和本地盘在使用方法上是一样的，也最容易被理解。OSS也可以作为和HDFS相同级别的数据存储方式，也为EMR数据存储提供了一个新的选择。那么使用OSS有什么优势，又有什么缺点，什么情况下我们会使用OSS来代替HDFS，到底使用什么存储方案，这是首先摆在我们面前的一个问题。

这里分别列举各种场景下两种方案的优缺点，各位可以根据实际情况，选择最合适自己业务的一种方式。

优缺点

上云迁移

对于两种存储方式而言，迁移方面可能有两方面的影响。
首先是数据迁移的方法而言。如果是迁移到HDFS，相当于是两个HDFS之间的迁移，可以使用Distcp。另外也可以使用Datax之类的工具，或者hadoop fs -get后拷贝过来再-put到新的HDFS上等。而如果是使用OSS来存储数据，OSS支持用Distcp拷入数据，也支持Datax（有OSSReader）。另外拷贝后用hadoop fs -put的方法写入数据的方法，也可以相应得替换成osscmd拷贝。以上看来两个方案没有太大的区别，但是考虑到网络是否可达，因为EMR的Worker节点没有公网IP，很多场景下需要比OSS的方案要做更多的工作。整体而言，数据迁移方面OSS略微胜出。
另外一部分需要考虑的是业务代码的迁移。如果直接使用HDFS，那业务代码上理论上不需要任何调整。而使用OSS存储数据的修改不过是在文件的路径上，把文件路径从HDFS的路径改成OSS的路径就可以了。相比而言需要少量的改动。

计算性能

根据测试，使用OSS存储数据计算上性能上略有降低。随着系统的优化，OSS存储数据的性能还会更好，对于性能要求不高的情况可以考虑使用OSS。不过现在推出的D1等机型配合EMR计算效果非常不错，对于性能比较看中且数据量较大的场景的可以用云盘上的HDFS的方案。

数据可用性

如果使用云盘+HDFS的方案，数据可用性依赖于云盘的可用性以及HDFS的冗余。如果是使用OSS，数据可用性可以参考OSS的SLA，目前可以保证99.99999999%的可用性。

弹性存储

如果数据存在HDFS上，如果数据写满后需要增加节点，目前EMR产品上没有现成的方法，需要用户自己购买机器并通过开源系统自己的方法添加节点并做rebalance，操作起来非常麻烦。但是如果使用OSS来存储数据，可以近似认为OSS的数据容量是无限的，不再需要考虑数据存储容量的问题。

弹性计算

使用OSS作为数据源，计算结束结果数据写回到OSS里，那集群就可以释放了。下个计算周期如果计算量增加，可以弹性得创建一个更大的集群(或者使用其他的机型来创建集群)来运行作业。后续EMR会支持在创建集群的时候选择竞价型实例，从而减少一笔费用。而如果是使用云盘HDFS的方案，上诉需求均无法实现。

计量计费

两种方案均支持包年包月的EMR付费模式。
使用OSS售价更低（OSS售价），而且再考虑到弹性存储（OSS只为实际存储的文件付费，使用云盘需要为整块云盘付费，而云盘需要为后续业务预留容量）和弹性计算（计算结束后释放整个集群，减少集群空置），实际上使用OSS的方案只会带来更低的成本。

数据湖与数据集成

如果数据存在HDFS上，外部数据参与计算需要先通过ETL导入到HDFS上。同样的，如果计算的结果要为外部应用所用，也需要导出来，多系统集成比较不便。如果是使用OSS来存储数据，各个应用之间统一使用OSS进行存储数据和管理，更方便搭建数据湖，并方便和其他的系统做数据交互。

冷数据与生命周期

如果数据存在HDFS上,当前暂时还没有有效的冷数据处理策略。对于数据的生命周期也是需要用户自行管理。但是如果存在OSS上，就可以用上OSS的生命周期管理功能，以及OSS的低频访问类型（Infrequent Access）与归档类型（Archive）支持。

总结

随着EMR和OSS的兼容做的越来越好和云计算网络环境的提升，OSS作为存储会越来越多得体现出其优势。对比两种方案，OSS方案最大的缺点是在读数据的时候性能低于HDFS，可以把数据的最初读取和最终的结果使用OSS，中间的临时计算变量放到HDFS上，可以一定程度上缓解这个问题。当然具体使用什么方案还需要根据实际情况选择最合适自己的才是最好的方案。

EMR使用OSS还是云盘HDFS存储的选择讨论

前言

优缺点

上云迁移

计算性能

数据可用性

弹性存储

弹性计算

计量计费

数据湖与数据集成

冷数据与生命周期

总结

阿里云支持与服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

EMR使用OSS还是云盘HDFS存储的选择讨论

前言

优缺点

上云迁移

计算性能

数据可用性

弹性存储

弹性计算

计量计费

数据湖与数据集成

冷数据与生命周期

总结

阿里云支持与服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景