【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames

简介: 本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,Walmart Lab目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。最后,还分享了Walmart Lab得出的观点:Spark Streaming与Data Frames是处理大规模实时数据流的关键技术。


44c19eb38604576f1f688b35c5327e30e3d55f48

b8ecfa35648483687758f3a742093968a54d3971

de9c87bb5b85d87c5e2c3322c2c478275d4c0998

acae098617892babd8ce89c3a8c7919df1009741

5cba0e5f077a1ca5131333b41feeaf973acec5ae

7211c53f08017bfb170f4bea6a2a95055c588b21

840bf5ce533801d562cd3a4d012b851b6935f24a

d47673d4e01eb763832f638ce83def26a6ce034e

6a605eb0394ce932c7ba25d472350abcd55b3337

ac477fb2f0510d0dc48d91453f1d1a22a6a0b299

ed43e0ef3dc04d29b907a3995a07e0fc57b6e50c

7a4e72ab1221e3635dfe6190986289e6007aa472

7fcee4f0e422214b5a4babe65c6cf14b05b54a1d

c8e91244f1d0bd9607d082cfd75818e430ac1b6a

33da7c5af1c457f6dfb10c4c11219c6b36ab984b

e807add88dade1b86e86e16ad49b7e64d34f1dcc

72b09ed73769c6f9bf4e54e2e48eb6354150ffe4

5931053b6a5882fa1c25b8aabd85d4bcad67bcc0

ddfd53b16f96f8042f9827a0bbe19b31bc8219af

5096e757ffbcb1dab0b6d990c69c6072d4c50bcd

6a6794c9752ed8ac7d5cfc4787f1c597eb6d1736

3b9be3ed93e1ddde641bded401d5359b00e160ff

相关文章
|
1月前
|
分布式计算 Java Scala
如何处理 Spark Streaming 的异常情况?
【6月更文挑战第16天】如何处理 Spark Streaming 的异常情况?
115 56
|
11天前
|
分布式计算 监控 数据处理
Spark Streaming:解锁实时数据处理的力量
【7月更文挑战第15天】Spark Streaming作为Spark框架的一个重要组成部分,为实时数据处理提供了高效、可扩展的解决方案。通过其微批处理的工作模式和强大的集成性、容错性特性,Spark Streaming能够轻松应对各种复杂的实时数据处理场景。然而,在实际应用中,我们还需要根据具体需求和资源情况进行合理的部署和优化,以确保系统的稳定性和高效性。
|
2月前
|
分布式计算 关系型数据库 MySQL
Spark编程实验四:Spark Streaming编程
Spark编程实验四:Spark Streaming编程
75 2
|
2月前
|
存储 消息中间件 分布式计算
Spark Streaming
Spark Streaming
43 1
|
2月前
|
分布式计算 大数据 数据处理
【Flink】Flink跟Spark Streaming的区别?
【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别?
|
2月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
247 1
|
2月前
|
分布式计算 Spark 索引
Spark学习---day07、Spark内核(Shuffle、任务执行)
Spark学习---day07、Spark内核(源码提交流程、任务执行)
|
20天前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
53 1
Spark快速大数据分析PDF下载读书分享推荐
|
SQL 分布式计算 API
SparkSQL(Spark-1.4.0)实战系列(一)——DataFrames基础
主要内容 本教程中所有例子跑在Spark-1.4.0集群上 DataFrames简介 DataFrame基本操作实战 DataFrames简介 本文部分内容译自https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html
3444 0