JindoTable数据湖之数据优化是什么?-问答-阿里云开发者社区-阿里云

开发者社区> Lee_tianbai> 正文

JindoTable数据湖之数据优化是什么?

来自:阿里云EMR 2021-01-07 15:48:35 289 1

JindoTable数据湖之数据优化是什么?

取消 提交回答
全部回答(1)
  • Lee_tianbai
    2021-01-07 15:48:45

    数据湖需要存储来自各种数据源的数据。对于 HDFS 集群,小文件问题让很多用户倍 感烦恼。在存储计算分离的数据湖中,小文件同样会产生很多问题:过多的文件数会导致目 录 list 时间显著变长,小文件也会影响很多计算引擎的并发度。此外,由于对象存储一般以 对象为单位,小文件也会导致请求数量的上升,会明显影响元数据操作的性能,更会增加企 业需要支付的费用。而如果数据文件过大,如果数据又使用了不可分割的压缩格式,后续计 算的并发度会过低,导致无法充分发挥集群的计算能力。因此,即使是数据湖架构中,对数 据文件进行治理和优化也是非常必要的。 基于数据湖所管理的元数据信息,JindoTable 为客户提供了一键式的优化功能,用户 只要在资源较为空闲时触发优化指令,JindoTable 可以自动为用户优化数据,规整文件大 小,进行适当的排序、预计算,生成适当的索引信息和统计信息,结合计算引擎的修改,可 以为这些数据生成更加高效的执行计划,大幅减少用户查询的执行时间。数据优化对用户透 明,优化前后不会出现读取的数据不一致的情况。这也是数据湖的数据治理所不可或缺的功 能。

    0 0
相关问答

3

回答

怎样进钉钉2个群

游客6bdmn27yntop2 2020-03-12 13:30:20 3448浏览量 回答数 3

2

回答

阿里云云原生数据库是什么,有什么作用?

Lee_tianbai 2021-01-07 15:15:47 810浏览量 回答数 2

1

回答

如果开传奇,同时在线4-5个版本需要什么配置云服务器多少带宽

木茶 2020-10-09 20:01:18 986浏览量 回答数 1

2

回答

什么是数据湖?

Lee_tianbai 2021-01-07 15:17:49 702浏览量 回答数 2

1

回答

数据湖要解决的三大问题是什么?

Lee_tianbai 2021-01-07 16:35:06 782浏览量 回答数 1

1

回答

阿里云DataWorks是如何解决元数据管理问题的?

Lee_tianbai 2021-01-07 16:36:21 1162浏览量 回答数 1

1

回答

阿里云DataWorks是如何解决数据集成问题的?

Lee_tianbai 2021-01-07 16:37:07 815浏览量 回答数 1

1

回答

阿里云DataWorks是如何解决数据开发问题的?

Lee_tianbai 2021-01-07 16:38:51 863浏览量 回答数 1

1

回答

为什么说数据湖是大数据和 AI 时代融合存储和计算的全新体系?

Lee_tianbai 2021-01-07 15:09:16 772浏览量 回答数 1

1

回答

常见的 CDC 方案实现之binlog 实时同步是什么?

Lee_tianbai 2021-01-07 16:25:07 709浏览量 回答数 1
+关注
0
文章
1008
问答
来源圈子
更多
E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括Hadoop和Spark,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11
+ 订阅
推荐问答
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载