开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

JindoTable数据湖之数据优化是什么?

JindoTable数据湖之数据优化是什么?

展开
收起
Lee_tianbai 2021-01-07 15:48:35 945 0
1 条回答
写回答
取消 提交回答
  • 数据湖需要存储来自各种数据源的数据。对于 HDFS 集群,小文件问题让很多用户倍 感烦恼。在存储计算分离的数据湖中,小文件同样会产生很多问题:过多的文件数会导致目 录 list 时间显著变长,小文件也会影响很多计算引擎的并发度。此外,由于对象存储一般以 对象为单位,小文件也会导致请求数量的上升,会明显影响元数据操作的性能,更会增加企 业需要支付的费用。而如果数据文件过大,如果数据又使用了不可分割的压缩格式,后续计 算的并发度会过低,导致无法充分发挥集群的计算能力。因此,即使是数据湖架构中,对数 据文件进行治理和优化也是非常必要的。 基于数据湖所管理的元数据信息,JindoTable 为客户提供了一键式的优化功能,用户 只要在资源较为空闲时触发优化指令,JindoTable 可以自动为用户优化数据,规整文件大 小,进行适当的排序、预计算,生成适当的索引信息和统计信息,结合计算引擎的修改,可 以为这些数据生成更加高效的执行计划,大幅减少用户查询的执行时间。数据优化对用户透 明,优化前后不会出现读取的数据不一致的情况。这也是数据湖的数据治理所不可或缺的功 能。

    2021-01-07 15:48:45
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
DLA 一站式数据湖管理-如何高效构建安全的数据湖? 立即下载
阿里云云原生数据湖体系全解读 立即下载
数据湖存储解决方案蓝皮书 立即下载