开发者社区> 阿里云E-MapReduce团队> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

《 Delta Lake 数据湖专题系列5讲》文章回顾

简介: 《Delta Lake 数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级,对数据湖 Lakehouse 有整体上的认识和应用,掌握理论知识体系。
+关注继续查看

简介

众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。


《Delta Lake数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级,对数据湖Lakehouse有整体上的认识和应用,掌握理论知识体系。


此外,阿里云和 Apache Spark 及 Delta Lake 的原厂 Databricks 引擎团队合作,推出了基于阿里云的企业版全托管 Spark 产品——Databricks 数据洞察,该产品原生集成企业版 Delta Engine 引擎,无需额外配置,提供高性能计算能力。有兴趣的同学可以搜索` Databricks 数据洞察`或`阿里云 Databricks `进入官网,或者直接访问https://www.aliyun.com/product/bigdata/spark 了解详情。


内容回顾

第一篇:

标题:【详谈 Delta Lake 】系列技术专题 之 基础和性能(Fundamentals and Performance)

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  Delta Lake 基础:为什么可靠性和性能很重要?
  • Chapter-02  深入理解事务日志(Transaction Log)
  • Chapter-03  如何使用 Schema 约束(Schema Enforcement)和演变(Schema Evolution)
  • Chapter-04  Delta Lake DML 语法
  • Chapter-05  在 Delta Lake 中使用 Data Skipping 和 Z-Ordering 来快速处理PB级数据

079e3ff6553b4f1aaf601526de27fc58.jpg

第二篇:

标题:【详谈 Delta Lake 】系列技术专题 之 特性(Features)

译者: 张鹏(卓昇),阿里云计算平台事业部技术专家

目录:

  • Chapter-01  为什么使用 Delta Lake 的 MERGE 功能?
  • Chapter-02  使用 Python API 在 Delta Lake 数据表上进行简单,可靠的更新和删除操作
  • Chapter-03  大型数据湖的 Time Travel 功能
  • Chapter-04  轻松克隆您的 Delta Lake 以方便测试,数据共享以及进行重复的机器学习
  • Chapter-05  在 Apache Spark 上的 Delta Lake 中启用 Spark SQL 的 DDL 和 DML 语句

1.png

第三篇:

标题:【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  什么是湖仓一体?
  • Chapter-02  深入探讨 Lakehouse 和 Delta Lake 的内部工作原理
  • Chapter-03  探究 Delta Engine

1.png

第四篇:

标题:【详谈 Delta Lake 】系列技术专题 之 Streaming(流式计算)

译者: 冯加亮(加亮),阿里云计算平台事业部大数据工程师

目录:

  • Chapter-01  使用 Delta Lake 解决流式数据入湖的难题
  • Chapter-02  使用 Delta Lake 简化股票行情数据的分析
  • Chapter-03  Tilting Point 游戏公司是如何使用 Delta Lake 处理流数据
  • Chapter-04  使用 Delta Lake 构建流媒体视频的解决方案

1.png

第五篇:

标题:【详谈 Delta Lake 】系列技术专题 之 客户用例( Customer Use Case)

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  Healthdirect Australia : 使用 Databricks 提供个性化和安全的在线患者护理
  • Chapter-02  Comcast:使用Delta Lake和MLflow转换查看器体验
  • Chapter-03  Viacom18: 从 Hadoop 迁移到 Databricks ,以提供更多吸引人的体验

1622618952312-ee2d70fb-e7ad-4871-bde0-3f706109c4d7.png






获取更详细的 Databricks 数据洞察相关信息,可至产品详情页查看:

https://www.aliyun.com/product/bigdata/spark


阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,技术专家直播,只为营造纯粹的 Spark 氛围,欢迎关注公众号!


扫描下方二维码入 Delta Lake 中国技术交流社区、Databricks 数据洞察产品交流钉钉群一起参与交流讨论!

8904928D-E241-4104-896D-EF2698DABBCA.jpg

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云国际版数据湖揭秘—Delta Lake
Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。
0 0
Delta Lake 数据湖基础介绍(商业版)| 学习笔记
快速学习Delta Lake 数据湖基础介绍(商业版)
0 0
基于 Delta Lake 构建数据湖仓体系
本文整理自阿里云开源大数据平台技术专家毕岩在7月17日阿里云数据湖技术专场交流会的分享。
0 0
数据湖揭秘—Delta Lake
Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。
0 0
数据湖构建服务搭配Delta Lake玩转CDC实时入湖
Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。
0 0
Delta Lake - 数据湖的数据可靠性
Delta Lake 是一个开源的存储层,为数据湖带来了可靠性。Delta Lake 提供了ACID事务、可伸缩的元数据处理以及统一的流和批数据处理。它运行在现有的数据湖之上,与 Apache Spark API完全兼容。
0 0
Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比
Delta Lake 是数砖公司在2017年10月推出来的一个项目,Hudi(Hoodie) 是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题,本文以中立的态度从高层次简单对比一下这两个数据湖产品的优缺点。
0 0
钉钉群直播【Delta Lake:一种新型的数据湖方案】
Delta Lake 是 Databricks 推出的一种新型的数据湖方案,解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开,如 Delta Lake 的适用场景、技术优势,Delta 的原理实现以及一些高级特性等,并就现有解决方案做横向对比。
888 0
谈谈如何构建现代数据体系架构(数据湖+数据仓库)
如何构建当前企业数据体系架构呢?其实与许多其他技术一样,它实际上取决于企业要实现目标。
0 0
谈谈如何构建受治理的数据湖
受治理的数据湖将增加企业数据资产的价值。对于那些在运营战略中优先考虑数据的组织来说,数据湖是理想的解决方案。
0 0
文章
问答
文章排行榜
最热
最新
相关电子书
更多
中国云原生数据湖应用洞察 白皮书
立即下载
数据湖统一元数据与权限
立即下载
数据湖技术解析
立即下载