开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

JindoTable数据湖之查询加速是什么?

JindoTable数据湖之查询加速是什么?

展开
收起
Lee_tianbai 2021-01-07 15:49:22 905 0
1 条回答
写回答
取消 提交回答
  • JindoTable 还有一项重磅功能,就是查询加速功能。在数仓中,数据分析总是越快越 好。尤其是 Ad-Hoc 场景,对查询延迟非常敏感。现在“湖仓一体”的概念也很火,对于 数据湖这种普遍使用存储计算分离场景的架构,如何尽可能减少 IO 开销,对于缩短查询 时间是非常关键的。 之前介绍的 JindoTable 数据优化功能,是在存储端减少额外开销,并且通过提前的 计算,为运行时优化打好基础。JindoTable 的查询加速功能则是在查询执行时,通过把计 算推向存储,减少计算时整体的 IO 压力,同时利用存储端空闲的计算资源提供高效的计 算,缩短整体查询时间。JindoTable 的加速服务结合修改后的各种计算引擎,可以把尽可 能多的算子下推到缓存端,并且利用高效的 native 计算能力过滤大量原始数据,再把数据 高效地传输给计算引擎。这样,计算引擎所需处理的数据大大减少,甚至一些计算也可以直 接略过,后续的计算所需的时间自然也就大为减少。

    image.png

    2021-01-08 15:47:49
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
DLA 一站式数据湖管理-如何高效构建安全的数据湖? 立即下载
阿里云云原生数据湖体系全解读 立即下载
数据湖存储解决方案蓝皮书 立即下载