开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

JindoTable数据湖之分层存储是什么?

JindoTable数据湖之分层存储是什么?

展开
收起
Lee_tianbai 2021-01-07 15:50:21 1712 0
1 条回答
写回答
取消 提交回答
  • 数据湖所存储的数据量通常增长迅速。对于传统的 Hadoop 集群,如果数据量急剧增 长,所需的存储资源也要相应增加,这样会导致集群规模迅速扩大,计算资源也会变得过剩。 抛开集群规模增长导致的其他问题不谈,光是运营集群的成本问题就足够让人头疼。好在公 有云平台提供了对象存储的服务,我们可以按存储的数据量来付费,这在节约成本的同时, 用户也不用担心 HDFS 在集群资源和数据量快速增长情况下的稳定性问题。但数据量快速 增长还是会等比例的增加整体开销。

    阿里云的对象存储服务 OSS,为用户提供了低频存储和归档存储,对于访问不是那么 频繁的数据,如果能够转为低频或归档模式来存储,可以尽量节约成本。而一部分数据如果 有频繁的访问需求,放在远离计算资源的对象存储上,又会导致计算时的 IO 出现瓶颈。 JindoTable 对接数据湖中各种计算引擎,以表或分区为最小单位,统计数据的访问频次。 根据用户设定的规则,JindoTable 可以告诉用户哪些表或者分区的访问频次较高,让用户 可以通过 JindoTable 命令,借助 JindoFS 提供的底层支持,把这些表或者分区对应的 数据缓存到计算集群内,加速查询的执行。同时,对于访问频次较低的表或者分区,用户也 可以使用 JindoTable 把对应的数据转为低频或者归档存储类型,或是设置生命周期。在 需要对归档数据操作的时候,可以直接用 JindoTable 对归档数据进行解冻。JindoTable 还为用户提供了元数据管理,方便用户检视表或者分区当前的存储状态。JindoTable 让用 户 能 尽 可 能 高 效 地 管 理 自 己 的 数 据 , 节 约 成 本 的 同 时 , 不 牺 牲 计 算 性 能 。

    2021-01-07 15:50:39
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
DLA 一站式数据湖管理-如何高效构建安全的数据湖? 立即下载
阿里云云原生数据湖体系全解读 立即下载
数据湖存储解决方案蓝皮书 立即下载