开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Lakehouse如何以开放的存储格式达到高效的查询性能?

Lakehouse如何以开放的存储格式达到高效的查询性能?

展开
收起
游客lmkkns5ck6auu 2022-07-28 16:24:58 426 0
1 条回答
写回答
取消 提交回答
  • 1)高速缓存;Lakehouse可以使用与数据仓库相同的优化数据结构对其进行缓存提高查询性能。

    2)建立辅助数据结构;即使数据是用Parquet格式存储的,也可以建立很多额外的数据结构来加快查询,同时对这些额外的数据进行事务性的维护。

    3)数据布局;

    4)动态文件剪枝(Dynamic File Pruning, DFP);

    5)优化组合;综合使用以上优化技术协同工作,让Lakehouse中的数据读取都在高速缓存中进行,并且通过数据布局优化,建立辅助数据结构减少对非缓存数据读取的I/0,实现了Lakehouse引擎可以提供与数据仓库类似的查询性能。

    以上内容摘自《Databricks数据洞悉》电子书,点击https://developer.aliyun.com/topic/download?id=8545可下载完整版

    2022-07-29 10:32:58
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
存储分层企业数据存储类型选择与优化 立即下载
实战-如何基于HBase构建图片视频数据的统一存储检索方案 立即下载
MaxCompute2.0外表对接异构存储源和支持非结构化数据介绍 立即下载