数据湖需要存储来自各种数据源的数据。对于 HDFS 集群,小文件问题让很多用户倍 感烦恼。在存储计算分离的数据湖中,小文件同样会产生很多问题:过多的文件数会导致目 录 list 时间显著变长,小文件也会影响很多计算引擎的并发度。此外,由于对象存储一般以 对象为单位,小文件也会导致请求数量的上升,会明显影响元数据操作的性能,更会增加企 业需要支付的费用。而如果数据文件过大,如果数据又使用了不可分割的压缩格式,后续计 算的并发度会过低,导致无法充分发挥集群的计算能力。因此,即使是数据湖架构中,对数 据文件进行治理和优化也是非常必要的。 基于数据湖所管理的元数据信息,JindoTable 为客户提供了一键式的优化功能,用户 只要在资源较为空闲时触发优化指令,JindoTable 可以自动为用户优化数据,规整文件大 小,进行适当的排序、预计算,生成适当的索引信息和统计信息,结合计算引擎的修改,可 以为这些数据生成更加高效的执行计划,大幅减少用户查询的执行时间。数据优化对用户透 明,优化前后不会出现读取的数据不一致的情况。这也是数据湖的数据治理所不可或缺的功 能。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。