【Spark Summit East 2017】使用Spark解锁设备数据的价值

简介: 本讲义出自John Landry在Spark Summit East 2017上的演讲,主要介绍了在惠普公司这样的大企业内部的数据分析的历程,在讲义中审查并挑战了惠普当时对于以Spark和Databricks最基础进入数据分析领域的决定,并分享了惠普如何使用从设备中获取的数据进行分析。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自John Landry在Spark Summit East 2017上的演讲,主要介绍了在惠普公司这样的大企业内部的数据分析的历程,在讲义中审查并挑战了惠普当时对于以Spark和Databricks最基础进入数据分析领域的决定,并分享了惠普如何使用从设备中获取的数据进行分析。


cafa061a194fc8ccc171c59ddbf67877d09acdb2

df8a2a21f18bc36325b1a12c554f058e5e3be268

dcc818ca5b014f695ad4eab7183b781a59c079db

d9d4236118bb73b736ef18fb6a4fc78e13c08a0d

e7a59b62a4d059168cc470bb077cceb725e4627a

0eb4667e1dd97789fb08dc4e83cb7327afbf5a0a

2a0ecd75b07a78fc29e516f2ff6cd8b1066fd180


15d2e5799b2a734aa37d3378e6b8a81a52605a97

b8d02bfdb51f3e691a9ed92d03ed2a98d83e95ee

1b24b34e6a4301e851213628cbc957436467f433

f23f37ffabce1ae613bc426d5fe9c9a8600b5f1e

152d52cd62847530a40b67a2b4fc11be4394ba39

660f5e9916741caa506485930fbb61aa476b82b4

c56a5a67266b5c1198b95a639a31702699f8ada5

相关文章
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
54 3
|
4月前
|
存储 分布式计算 Java
|
4月前
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
260 4
|
4月前
|
存储 缓存 分布式计算
|
4月前
|
SQL 存储 分布式计算
|
4月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
58 1
|
5月前
|
分布式计算 数据处理 流计算
实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时,如何实时查看数据变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
存储 分布式计算 Spark
Spark会把数据都载入到内存么?
这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。
1894 0
|
存储 分布式计算 Spark
Spark会把数据都载入到内存么?
前言         很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。   比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:   RDD的定义,RDD是一个分布式的不可变数据集合   Spark 是一个内
2452 0
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
130 2
ClickHouse与大数据生态集成:Spark & Flink 实战
下一篇
DataWorks