开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Delta Lake发展历程是什么?

Delta Lake发展历程是什么?

展开
收起
游客lmkkns5ck6auu 2022-07-28 15:53:03 390 0
1 条回答
写回答
取消 提交回答
  • Delta lake项目最早开源在2019年4月,事务、流批一体等最核心的功能在0.1版本都已实现。

    此后,Delta Lake便致力于易用性和开放性的方向在不断努力,Lakehouse也开放了更多技术在开源社区。

    0.2-0.4版本:提供了对不同云对象存储的支持;0.3版本在API层面的能力也逐渐增强,同时支持了一些常见的DML操作;0.4版本支持了将parquet表格式直接转换成Delta。

    0.5版本:Delta lake开始尝试对Spark之外的查询引擎提供读场景的支持,这也是社区第一次在Spark之外提供引擎的支持,也是Delta Lake开放性目标的一部分;同时0, 5版本还提供了一些优化的特性,以及通过SQL的方式直接将parque转成Delta。

    0.6版本:Delta Lake做了一些Schema的演化性支持,同时对merge能也提供了进一步优化,对比如describe history的命令提供了更多metrics信息。

    0.7版本:随着Spark3.0的开源,Delta Lake提供了Spark3.0的兼容。并且基于Spark3.0提供了更多特性:在元数据层面,支持读取Hive metastore元数据,因为元数据本身是transaction log事务日志的一部分,所以有了Hive metastore的支持,就能够与其他引擎比如presto去共享元数据;在易用性方面,从SQL层面提供了对dmL的支持。

    0.8版本:Delta Lake主要贡献是在merge操作上提供了更多‘I'}能增强的特性 ,同时支持了VACUUM的并发删除能力。

    2021年5月Delta lake1.0版本正式发布。纵观Delta lake的发展历程,可以清晰地看出,它一直坚定地朝着Everywhere—支持更多元、更开放的生态发展。

    以上内容摘自《Databricks数据洞悉》电子书,点击https://developer.aliyun.com/topic/download?id=8545可下载完整版

    2022-07-29 10:13:18
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
Blink_Data_Lake 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载