开发者社区大数据文章正文

【Spark Summit East 2017】使用Spark解锁设备数据的价值

2017-02-20 1621

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自John Landry在Spark Summit East 2017上的演讲，主要介绍了在惠普公司这样的大企业内部的数据分析的历程，在讲义中审查并挑战了惠普当时对于以Spark和Databricks最基础进入数据分析领域的决定，并分享了惠普如何使用从设备中获取的数据进行分析。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自John Landry在Spark Summit East 2017上的演讲，主要介绍了在惠普公司这样的大企业内部的数据分析的历程，在讲义中审查并挑战了惠普当时对于以Spark和Databricks最基础进入数据分析领域的决定，并分享了惠普如何使用从设备中获取的数据进行分析。

cafa061a194fc8ccc171c59ddbf67877d09acdb2

df8a2a21f18bc36325b1a12c554f058e5e3be268

dcc818ca5b014f695ad4eab7183b781a59c079db

d9d4236118bb73b736ef18fb6a4fc78e13c08a0d

e7a59b62a4d059168cc470bb077cceb725e4627a

0eb4667e1dd97789fb08dc4e83cb7327afbf5a0a

2a0ecd75b07a78fc29e516f2ff6cd8b1066fd180

15d2e5799b2a734aa37d3378e6b8a81a52605a97

b8d02bfdb51f3e691a9ed92d03ed2a98d83e95ee

1b24b34e6a4301e851213628cbc957436467f433

f23f37ffabce1ae613bc426d5fe9c9a8600b5f1e

152d52cd62847530a40b67a2b4fc11be4394ba39

660f5e9916741caa506485930fbb61aa476b82b4

c56a5a67266b5c1198b95a639a31702699f8ada5

文章标签：

大数据

分布式计算

Spark

数据挖掘

MaxCompute

关键词：

apache spark数据

apache spark设备

apache spark价值

apache spark summit数据

apache spark east数据

小猫吃鱼569

武子康

2月前

分布式计算关系型数据库 MySQL

大数据-88 Spark 集群案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL

武子康

54 3 3

wljslmz

4月前

存储分布式计算 Java

解释 Spark 与数据序列化格式的互操作性

【8月更文挑战第13天】

wljslmz

79 4 4

wljslmz

4月前

分布式计算监控大数据

如何处理 Spark 中的倾斜数据？

【8月更文挑战第13天】

wljslmz

260 4 4

wljslmz

4月前

存储缓存分布式计算

如何在 Spark 中持久保存数据，有哪些不同的存储级别可用？

【8月更文挑战第13天】

wljslmz

201 4 4

wljslmz

4月前

SQL 存储分布式计算

如何使用 Spark SQL 从 DataFrame 查询数据？

【8月更文挑战第13天】

wljslmz

131 4 4

呆呆宝

4月前

分布式计算 Apache 数据安全/隐私保护

流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决

呆呆宝

58 1 1

三分钟热度的鱼

5月前

分布式计算数据处理流计算

实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时，如何实时查看数据变化

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

55 1 1

祝威廉

存储分布式计算 Spark

Spark会把数据都载入到内存么？

这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。

祝威廉

1894 0 0

多云

存储分布式计算 Spark

Spark会把数据都载入到内存么?

前言　　很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。　　比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换，这很可能是受两个概念的误导：　　RDD的定义，RDD是一个分布式的不可变数据集合　　Spark 是一个内

多云

2452 0 0

郑小健

1月前

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

130 2 3

【Spark Summit East 2017】使用Spark解锁设备数据的价值

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【Spark Summit East 2017】使用Spark解锁设备数据的价值

热门文章

最新文章

相关课程

相关电子书