【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

简介: 本讲义出自Pat Patterson在Spark Summit EU上的演讲,他首先介绍了数据工程中的一个难点就是数据漂流(Data Drift),以及应对数据漂流所出现的一些解决方案。之后详细介绍了开发和操作复杂数据流的开源软件StreamSets,并分享了当前在Spark上比较流行的数据通道。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Pat Patterson在Spark Summit EU上的演讲,他首先介绍了数据工程中的一个难点就是数据漂流(Data Drift),以及应对数据漂流所出现的一些解决方案。之后详细介绍了开发和操作复杂数据流的开源软件StreamSets,并分享了当前在Spark上比较流行的数据通道。


a5c94393bf383c6ef0b729a31fdd063bac575356


c2b15e35cb96ea57832c0a86d8480fb4636ec6a8

c2e9c9ec751e15e1fc27e7c8b3eb51a78c21f248

3de70124dea0017dbeba07618fce30800e67df86

4f43df11540568829e1eb339aaafb331b4536b59

b075f065a3269825ba541e9bf150e174fcafd934

d3ad999da2f254dd0a989ec57b8ef0607a1501e6

91bed59249c79ec42933b8937adffe972718aaab

0749fe117aad3662c3714364457e2f8ec4985495

56f1fdb77130de536c6429f88e243a19515fe38e

31a71d467b16812a787e79980f1f49228cca2852

56e27c4f8e107fb4193fb4004a4c71687138c957

38644ff697bc17c9ff04f2ae5b2d04c89df71547

04a97c0788bbcc30c75bd5cbb3754833ff9382af

619a5625864188eed9454f90e3c47a25cdc74548

a9b21b899ca7ca31053c7776820765cc81da192a

c8a692dfa7a4a263aa437ede73c032f213c617a6

15d3661d1d1ed05a7591b56e2c89825f2825f852

473f6947fae9164d6143616686b638e15e018280

75205c268f88d2d612d75f34979382f6b889ff75

c1bee007043dc8def42c512e214ca08528c1d268

cfaa5383d0436bd27882c266e4646fe764c1e440

217dad2806539b20b5cc671baf84c3566d34eb5f

47f463da5d16549e3cc185cb90783f2085b45da9

567e666de653fb40a0d2d4a48aa637566877098e

c0ea8485b82aa2279aef88c6054f878bfc2751b2

相关文章
|
27天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
45 3
|
3月前
|
存储 分布式计算 Java
|
3月前
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
238 4
|
3月前
|
存储 缓存 分布式计算
|
3月前
|
SQL 存储 分布式计算
|
3月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
48 1
|
4月前
|
分布式计算 数据处理 流计算
实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时,如何实时查看数据变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
存储 分布式计算 Spark
Spark会把数据都载入到内存么?
这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。
1881 0
|
存储 分布式计算 Spark
Spark会把数据都载入到内存么?
前言         很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。   比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:   RDD的定义,RDD是一个分布式的不可变数据集合   Spark 是一个内
2445 0
|
5天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
26 2
ClickHouse与大数据生态集成:Spark & Flink 实战