Delta lake项目最早开源在2019年4月,事务、流批一体等最核心的功能在0.1版本都已实现。
此后,Delta Lake便致力于易用性和开放性的方向在不断努力,Lakehouse也开放了更多技术在开源社区。
0.2-0.4版本:提供了对不同云对象存储的支持;0.3版本在API层面的能力也逐渐增强,同时支持了一些常见的DML操作;0.4版本支持了将parquet表格式直接转换成Delta。
0.5版本:Delta lake开始尝试对Spark之外的查询引擎提供读场景的支持,这也是社区第一次在Spark之外提供引擎的支持,也是Delta Lake开放性目标的一部分;同时0, 5版本还提供了一些优化的特性,以及通过SQL的方式直接将parque转成Delta。
0.6版本:Delta Lake做了一些Schema的演化性支持,同时对merge能也提供了进一步优化,对比如describe history的命令提供了更多metrics信息。
0.7版本:随着Spark3.0的开源,Delta Lake提供了Spark3.0的兼容。并且基于Spark3.0提供了更多特性:在元数据层面,支持读取Hive metastore元数据,因为元数据本身是transaction log事务日志的一部分,所以有了Hive metastore的支持,就能够与其他引擎比如presto去共享元数据;在易用性方面,从SQL层面提供了对dmL的支持。
0.8版本:Delta Lake主要贡献是在merge操作上提供了更多‘I'}能增强的特性 ,同时支持了VACUUM的并发删除能力。
2021年5月Delta lake1.0版本正式发布。纵观Delta lake的发展历程,可以清晰地看出,它一直坚定地朝着Everywhere—支持更多元、更开放的生态发展。
以上内容摘自《Databricks数据洞悉》电子书,点击https://developer.aliyun.com/topic/download?id=8545可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。