文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

JindoTable数据湖之数据优化是什么？

JindoTable数据湖之数据优化是什么？

展开

收起

Lee_tianbai 2021-01-07 15:48:35 1053 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

Lee_tianbai

数据湖需要存储来自各种数据源的数据。对于 HDFS 集群，小文件问题让很多用户倍感烦恼。在存储计算分离的数据湖中，小文件同样会产生很多问题：过多的文件数会导致目录 list 时间显著变长，小文件也会影响很多计算引擎的并发度。此外，由于对象存储一般以对象为单位，小文件也会导致请求数量的上升，会明显影响元数据操作的性能，更会增加企业需要支付的费用。而如果数据文件过大，如果数据又使用了不可分割的压缩格式，后续计算的并发度会过低，导致无法充分发挥集群的计算能力。因此，即使是数据湖架构中，对数据文件进行治理和优化也是非常必要的。基于数据湖所管理的元数据信息，JindoTable 为客户提供了一键式的优化功能，用户只要在资源较为空闲时触发优化指令，JindoTable 可以自动为用户优化数据，规整文件大小，进行适当的排序、预计算，生成适当的索引信息和统计信息，结合计算引擎的修改，可以为这些数据生成更加高效的执行计划，大幅减少用户查询的执行时间。数据优化对用户透明，优化前后不会出现读取的数据不一致的情况。这也是数据湖的数据治理所不可或缺的功能。

2021-01-07 15:48:45

赞同展开评论

问答分类：

开源大数据平台 E-MapReduce

问答标签：

数据湖数据数据湖数据优化数据湖优化 jindotable数据湖优化 jindotable数据湖

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

相关问答

如果新开通E-MapReduce集群选择数据湖服务所有数据都存在OSS上吗

175

1

0

Hologres如何实时写入DLF数据湖的数据

145

1

0

我这边用flinksql创建delta数据湖表，但是实际上只插入数据只有第一个字母或者数字，为什么？

237

1

0

数据湖对于实时数据是如何管理的？

128

0

0

flink如何从数据湖中读取实时数据？

447

10

0

DataWorks这边创建了个数据湖集成外部项目dlf,如何进去直接查询数据？

261

3

0

数据量比在线的表格存储少了一个数量级，什么原因？

309

1

0

已经构建数据湖，也集成到dataworks，但是为啥在数据地图看不到外部项目的元数据信息？

468

2

0

通过数据湖构建功能入库的数据，如果希望处理后导出到mysql ,有自动化的处理方式么？

454

1

0

阿里云数据湖方案可支持多大级别的数据存储量？

1069

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

收录在圈子:

阿里云E-MapReduce

2323

+ 订阅

相关文章

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

文件下载加速及成本优化

云原生企业级数据湖

多模态数据信息提取

热门讨论

热门文章

有大佬在阿里云E-MapReduce线上用过Flink cdc CDAS 同步数据到SR的吗？

分区删除后回收站的数据已经超过了设置的24小时，一直没有清理是什么原因？

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

我想1159087087316311这个国内站账户适用EMR Notebook和Workflow服

请教下EMR的DataLake集群，如果我自己装Zeppelin和Hue，会有兼容性问题么

阿里云E-MapReduce我如果把roll的参数调小点，就可以切分均匀，日志有大量的这个，正常吗？

数据湖存储OSS是什么？

hdfs 文件块过多（1亿）每个datanode 占3000万块(分16G内),某时刻内存陡然增加？

阿里云E-MapReduce中JindoDistCp 有什么参数覆盖目标目录吗？

阿里云E-MapReduce中flinkui在哪看，入口是哪？

展开全部

分布式快照算法: Chandy-Lamport

JindoFS: 云上大数据的高性能数据湖存储方案

Spark in action on Kubernetes - Playground搭建与架构浅析

JindoFS解析 - 云上大数据高性能数据湖存储方案

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

基于Alluxio系统的Spark DataFrame高效存储管理技术

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

阿里封神-大数据处理技术漫谈

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

展开全部

还有其他疑问?