HDFS 使用 DataNode 在存储节点上来管理节点存储,全部数据块都存储在节点的 磁盘上,依靠 DataN ode 定期检查和心跳把存储状态上报给 Name Node, NameNode 通过汇总和计算,动态地保证文件的数据块达到设定的副本数(一般 3 副 本)。对于大规模集群(节点 1000+),经常需要进行集群节点扩容,节点迁移,节点下 线,节点数据平衡这样的操作,大量的数据块的副本计算增加了 NameNode 负载,同时, 节点相关操作要等待 NameNode 内部的副本调度完成才能进行,通常一个存储节点的下 线需要小时级别的等待才能完成。JindoFS 使用 StorageService 来管理节点上的存储, 由于 JindoFS 保证了数据在 OSS 上有一副本,所以本地的副本主要用来进行缓存加速。 对于节点迁移、节点下线等场景,JindoFS 无需复杂副本计算,通过快速的“标记”即可 完成下线。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。