《 Delta Lake 数据湖专题系列5讲》文章回顾-阿里云开发者社区

开发者社区> Apache Spark中国社区> 正文
登录阅读全文

《 Delta Lake 数据湖专题系列5讲》文章回顾

简介: 《Delta Lake 数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级,对数据湖 Lakehouse 有整体上的认识和应用,掌握理论知识体系。

简介

众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。


《Delta Lake数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级,对数据湖Lakehouse有整体上的认识和应用,掌握理论知识体系。


此外,阿里云和 Apache Spark 及 Delta Lake 的原厂 Databricks 引擎团队合作,推出了基于阿里云的企业版全托管 Spark 产品——Databricks 数据洞察,该产品原生集成企业版 Delta Engine 引擎,无需额外配置,提供高性能计算能力。有兴趣的同学可以搜索` Databricks 数据洞察`或`阿里云 Databricks `进入官网,或者直接访问https://www.aliyun.com/product/bigdata/spark 了解详情。


内容回顾

第一篇:

标题:【详谈 Delta Lake 】系列技术专题 之 基础和性能(Fundamentals and Performance)

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  Delta Lake 基础:为什么可靠性和性能很重要?
  • Chapter-02  深入理解事务日志(Transaction Log)
  • Chapter-03  如何使用 Schema 约束(Schema Enforcement)和演变(Schema Evolution)
  • Chapter-04  Delta Lake DML 语法
  • Chapter-05  在 Delta Lake 中使用 Data Skipping 和 Z-Ordering 来快速处理PB级数据

079e3ff6553b4f1aaf601526de27fc58.jpg

第二篇:

标题:【详谈 Delta Lake 】系列技术专题 之 特性(Features)

译者: 张鹏(卓昇),阿里云计算平台事业部技术专家

目录:

  • Chapter-01  为什么使用 Delta Lake 的 MERGE 功能?
  • Chapter-02  使用 Python API 在 Delta Lake 数据表上进行简单,可靠的更新和删除操作
  • Chapter-03  大型数据湖的 Time Travel 功能
  • Chapter-04  轻松克隆您的 Delta Lake 以方便测试,数据共享以及进行重复的机器学习
  • Chapter-05  在 Apache Spark 上的 Delta Lake 中启用 Spark SQL 的 DDL 和 DML 语句

1.png

第三篇:

标题:【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  什么是湖仓一体?
  • Chapter-02  深入探讨 Lakehouse 和 Delta Lake 的内部工作原理
  • Chapter-03  探究 Delta Engine

1.png

第四篇:

标题:【详谈 Delta Lake 】系列技术专题 之 Streaming(流式计算)

译者: 冯加亮(加亮),阿里云计算平台事业部大数据工程师

目录:

  • Chapter-01  使用 Delta Lake 解决流式数据入湖的难题
  • Chapter-02  使用 Delta Lake 简化股票行情数据的分析
  • Chapter-03  Tilting Point 游戏公司是如何使用 Delta Lake 处理流数据
  • Chapter-04  使用 Delta Lake 构建流媒体视频的解决方案

1.png

第五篇:

标题:【详谈 Delta Lake 】系列技术专题 之 客户用例( Customer Use Case)

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  Healthdirect Australia : 使用 Databricks 提供个性化和安全的在线患者护理
  • Chapter-02  Comcast:使用Delta Lake和MLflow转换查看器体验
  • Chapter-03  Viacom18: 从 Hadoop 迁移到 Databricks ,以提供更多吸引人的体验

1622618952312-ee2d70fb-e7ad-4871-bde0-3f706109c4d7.png






获取更详细的 Databricks 数据洞察相关信息,可至产品详情页查看:

https://www.aliyun.com/product/bigdata/spark


阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,技术专家直播,只为营造纯粹的 Spark 氛围,欢迎关注公众号!


扫描下方二维码入 Delta Lake 中国技术交流社区、Databricks 数据洞察产品交流钉钉群一起参与交流讨论!

8904928D-E241-4104-896D-EF2698DABBCA.jpg

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎加入!邀请你加入钉钉群聊Apache Spark中国技术交流社区,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,X7S/0/QcrLMkK7QZ5sw2oTvoYW49u0g5dvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
最新文章
相关文章
官网链接