开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Delta Lake具备的能力有哪些?

Delta Lake具备的能力有哪些?

展开
收起
游客lmkkns5ck6auu 2022-07-28 16:30:08 355 0
1 条回答
写回答
取消 提交回答
  • 1)具备同时读写并且有数据一致性保证的能力。在Delta La ke当中,Reader和Writer是通过快照机制来进行隔离,也就是说Reader和Writer可以以乐观锁的形式各自写入和读出,互不影响。

    2)具备高吞吐从大表读元数据的能力。我们可以想象,当一个表变大之后,它本身的元数据、快照、Checkpoi nt版本以及变更Schema一系列所有的元数据操作本身就会变成一个大数据的问题。Delta Lake当中设计非常棒的一点就是本身将Meta Delta也视为大数据问题,通过Spark框架自身处理大表的元数据问题。所以在Delta中,不必担心会出现单点处理Meta Delta焊死的情况。 3)历史数据以及脏数据的回滚。我们需要有Time Travel的能力来回溯到某一个时间点进行数据清洗。

    4)具备在线处理历史数据的能力。在历史数据回填中,我们依然可以实时处理当前流入的新数据,无需停留,也无需考虑哪些是实时,哪些是离线。

    5)可以在不阻断下游作业的前提下处理迟到的数据,可以直接入表。

    以上内容摘自《Databricks数据洞悉》电子书,点击https://developer.aliyun.com/topic/download?id=8545可下载完整版

    2022-07-29 10:45:26
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
Greenplum 5: 内核增强、广泛适用的大数据平台 立即下载
存储世界,不止如此-EB级存储引擎背后的技术 立即下载
FLASH:大规模分布式图计算引擎及应用 立即下载