【Spark Summit EU 2016】摆脱传统ETL,让我们走向Spark吧!

简介: 本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了什么是ETL,其实ETL就是对于数据的提取、转换、加载(Extract-Transform-Load),并介绍了ETL的一些常用工具,除此之外Bas Geerdink着重介绍了为什么要用Spark来做ETL,并对于一些代码示例进行了分享。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了什么是ETL,其实ETL就是对于数据的提取、转换、加载(Extract-Transform-Load),并介绍了ETL的一些常用工具,除此之外,Bas Geerdink着重介绍了为什么要用Spark来做ETL,并对于一些代码示例进行了分享。


eb82ab5709d431debcac80328a79a26d6cbfde39

364ff14461c65a7a1ae7a0b5a7841ecffe9c5b8c

b1376897e11c0d3ed75321b6813467ede1b3af5e

5323992ea316df3da02c37252ff9e0f93c4872fe

ba257753fdd2bcd337496ee72df5c5ec58366706

446a363b6523b5291741748b0960ab0bed2d5185

30f5950c23acad9553bdf9fc3163ba0659983f04

1f4a4c99b26652d6fb78d5f4fa132d6bf6b605a5

784234d9126604b2f94f7a8dee0850e590be00a8

427fe51d2f6ea49c81f0b4695b5cc6ba9582394d

25ecb53fea47a92e22e7e7e3cacd07e118257dc7

f60d52f4d82ec57978b9bf8eb4960cae89077312

40c9a52874c454c322cc4d99e2c45cdc6f0d8d82

176aa017439c358c303a7da8447138110dda83c8

572550f9c94499bd36052b9e8583255752231a1f

8802e30d186c48161eae268b6211d5a56d451b58

2211c18f2f881268efbf506ef9b3f7d81c1cf654

852c010fb54e813f219119815b83417115c7cf35

3276a0a6b04b9f0bf8f79ebeaa71142f1798ccb3

19f0bacf299f3c4b6c4a671e6de9297da7ad51f5


相关文章
|
6月前
|
SQL 存储 大数据
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
257 0
|
SQL 分布式计算 HIVE
|
人工智能 分布式计算 大数据
Spark + AI Summit 2020 中文议题有奖征集
北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。
Spark + AI Summit 2020 中文议题有奖征集
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
机器学习/深度学习 人工智能 分布式计算
Spark + AI summit 2019北美技术峰会华丽落幕
本次SAIC含盖了数据工程与数据科学的内容,包括AI产品化的最佳实践案例分享:超大数据规模下,利用流数据处理确保训练数据更新的时效性,完成数据质量监控,测试以及数据模型服务。也有对流行的软件框架如TensorFlow,SciKit-Learn,Keras,PyTorch,DeepLearning4J,BigDL以及Deep Learning Pipelines等,分别进行深入的主题分享探讨。
|
机器学习/深度学习 分布式计算 大数据