《 Delta Lake 数据湖专题系列5讲》文章回顾

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 《Delta Lake 数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级,对数据湖 Lakehouse 有整体上的认识和应用,掌握理论知识体系。

简介

众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。


《Delta Lake数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级,对数据湖Lakehouse有整体上的认识和应用,掌握理论知识体系。


此外,阿里云和 Apache Spark 及 Delta Lake 的原厂 Databricks 引擎团队合作,推出了基于阿里云的企业版全托管 Spark 产品——Databricks 数据洞察,该产品原生集成企业版 Delta Engine 引擎,无需额外配置,提供高性能计算能力。有兴趣的同学可以搜索` Databricks 数据洞察`或`阿里云 Databricks `进入官网,或者直接访问https://www.aliyun.com/product/bigdata/spark 了解详情。


内容回顾

第一篇:

标题:【详谈 Delta Lake 】系列技术专题 之 基础和性能(Fundamentals and Performance)

译者:  韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  Delta Lake 基础:为什么可靠性和性能很重要?
  • Chapter-02  深入理解事务日志(Transaction Log)
  • Chapter-03  如何使用 Schema 约束(Schema Enforcement)和演变(Schema Evolution)
  • Chapter-04  Delta Lake DML 语法
  • Chapter-05  在 Delta Lake 中使用 Data Skipping 和 Z-Ordering 来快速处理PB级数据

079e3ff6553b4f1aaf601526de27fc58.jpg

第二篇:

标题:【详谈 Delta Lake 】系列技术专题 之 特性(Features)

译者:  张鹏(卓昇),阿里云计算平台事业部技术专家

目录:

  • Chapter-01  为什么使用 Delta Lake 的 MERGE 功能?
  • Chapter-02  使用 Python API 在 Delta Lake 数据表上进行简单,可靠的更新和删除操作
  • Chapter-03  大型数据湖的 Time Travel 功能
  • Chapter-04  轻松克隆您的 Delta Lake 以方便测试,数据共享以及进行重复的机器学习
  • Chapter-05  在 Apache Spark 上的 Delta Lake 中启用 Spark SQL 的 DDL 和 DML 语句

1.png

第三篇:

标题:【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

译者:  韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  什么是湖仓一体?
  • Chapter-02  深入探讨 Lakehouse 和 Delta Lake 的内部工作原理
  • Chapter-03  探究 Delta Engine

1.png

第四篇:

标题:【详谈 Delta Lake 】系列技术专题 之 Streaming(流式计算)

译者:冯加亮(加亮),阿里云计算平台事业部大数据工程师

目录:

  • Chapter-01  使用 Delta Lake 解决流式数据入湖的难题
  • Chapter-02  使用 Delta Lake 简化股票行情数据的分析
  • Chapter-03  Tilting Point 游戏公司是如何使用 Delta Lake 处理流数据
  • Chapter-04  使用 Delta Lake 构建流媒体视频的解决方案

1.png

第五篇:

标题:【详谈 Delta Lake 】系列技术专题 之 客户用例( Customer Use Case)

译者:韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  Healthdirect Australia : 使用 Databricks 提供个性化和安全的在线患者护理
  • Chapter-02  Comcast:使用Delta Lake和MLflow转换查看器体验
  • Chapter-03  Viacom18: 从 Hadoop 迁移到 Databricks ,以提供更多吸引人的体验

1622618952312-ee2d70fb-e7ad-4871-bde0-3f706109c4d7.png






获取更详细的 Databricks 数据洞察相关信息,可至产品详情页查看:

https://www.aliyun.com/product/bigdata/spark


阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,技术专家直播,只为营造纯粹的 Spark 氛围,欢迎关注公众号!


扫描下方二维码入 Delta Lake 中国技术交流社区、Databricks 数据洞察产品交流钉钉群一起参与交流讨论!

8904928D-E241-4104-896D-EF2698DABBCA.jpg

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
7月前
|
SQL 分布式计算 HIVE
最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建
最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建
312 0
|
存储 SQL 分布式计算
数据湖的选型(delta iceberg hudi)以及比对
数据湖的选型(delta iceberg hudi)以及比对
684 0
|
存储 传感器 SQL
【数据湖架构】Azure Data Lake数据湖指南(下)
【数据湖架构】Azure Data Lake数据湖指南
|
存储 机器学习/深度学习 分布式计算
【数据湖架构】Azure Data Lake数据湖指南(上)
【数据湖架构】Azure Data Lake数据湖指南
|
存储 SQL JSON
【数据湖】在 Azure Data Lake Storage gen2 上构建数据湖
【数据湖】在 Azure Data Lake Storage gen2 上构建数据湖
|
存储 SQL JSON
【数据湖】Azure 数据湖分析(Azure Data Lake Analytics )概述
【数据湖】Azure 数据湖分析(Azure Data Lake Analytics )概述
|
存储 传感器 SQL
【数据湖架构】Hitchhiker的Azure Data Lake数据湖指南
【数据湖架构】Hitchhiker的Azure Data Lake数据湖指南
|
自然语言处理 数据可视化 大数据
谈谈如何从数据湖(Data Lake)架构转向数据网格(Data Mesh)架构
尽管数据网格实践被应用在有些客户中,但企业规模性的采用仍有很长的路要走。
谈谈如何从数据湖(Data Lake)架构转向数据网格(Data Mesh)架构
|
SQL 存储 JSON
基于 Delta Lake 构建数据湖仓体系
本文整理自阿里云开源大数据平台技术专家毕岩在7月17日阿里云数据湖技术专场交流会的分享。
基于 Delta Lake 构建数据湖仓体系
|
存储 SQL 机器学习/深度学习
Delta Lake 数据湖基础介绍(商业版)| 学习笔记
快速学习Delta Lake 数据湖基础介绍(商业版)
312 0
Delta Lake 数据湖基础介绍(商业版)| 学习笔记