数据湖所存储的数据量通常增长迅速。对于传统的 Hadoop 集群,如果数据量急剧增 长,所需的存储资源也要相应增加,这样会导致集群规模迅速扩大,计算资源也会变得过剩。 抛开集群规模增长导致的其他问题不谈,光是运营集群的成本问题就足够让人头疼。好在公 有云平台提供了对象存储的服务,我们可以按存储的数据量来付费,这在节约成本的同时, 用户也不用担心 HDFS 在集群资源和数据量快速增长情况下的稳定性问题。但数据量快速 增长还是会等比例的增加整体开销。
阿里云的对象存储服务 OSS,为用户提供了低频存储和归档存储,对于访问不是那么 频繁的数据,如果能够转为低频或归档模式来存储,可以尽量节约成本。而一部分数据如果 有频繁的访问需求,放在远离计算资源的对象存储上,又会导致计算时的 IO 出现瓶颈。 JindoTable 对接数据湖中各种计算引擎,以表或分区为最小单位,统计数据的访问频次。 根据用户设定的规则,JindoTable 可以告诉用户哪些表或者分区的访问频次较高,让用户 可以通过 JindoTable 命令,借助 JindoFS 提供的底层支持,把这些表或者分区对应的 数据缓存到计算集群内,加速查询的执行。同时,对于访问频次较低的表或者分区,用户也 可以使用 JindoTable 把对应的数据转为低频或者归档存储类型,或是设置生命周期。在 需要对归档数据操作的时候,可以直接用 JindoTable 对归档数据进行解冻。JindoTable 还为用户提供了元数据管理,方便用户检视表或者分区当前的存储状态。JindoTable 让用 户 能 尽 可 能 高 效 地 管 理 自 己 的 数 据 , 节 约 成 本 的 同 时 , 不 牺 牲 计 算 性 能 。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。