JindoTable 还有一项重磅功能,就是查询加速功能。在数仓中,数据分析总是越快越 好。尤其是 Ad-Hoc 场景,对查询延迟非常敏感。现在“湖仓一体”的概念也很火,对于 数据湖这种普遍使用存储计算分离场景的架构,如何尽可能减少 IO 开销,对于缩短查询 时间是非常关键的。 之前介绍的 JindoTable 数据优化功能,是在存储端减少额外开销,并且通过提前的 计算,为运行时优化打好基础。JindoTable 的查询加速功能则是在查询执行时,通过把计 算推向存储,减少计算时整体的 IO 压力,同时利用存储端空闲的计算资源提供高效的计 算,缩短整体查询时间。JindoTable 的加速服务结合修改后的各种计算引擎,可以把尽可 能多的算子下推到缓存端,并且利用高效的 native 计算能力过滤大量原始数据,再把数据 高效地传输给计算引擎。这样,计算引擎所需处理的数据大大减少,甚至一些计算也可以直 接略过,后续的计算所需的时间自然也就大为减少。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。