【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames

简介: 本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,Walmart Lab目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。最后,还分享了Walmart Lab得出的观点:Spark Streaming与Data Frames是处理大规模实时数据流的关键技术。


44c19eb38604576f1f688b35c5327e30e3d55f48

b8ecfa35648483687758f3a742093968a54d3971

de9c87bb5b85d87c5e2c3322c2c478275d4c0998

acae098617892babd8ce89c3a8c7919df1009741

5cba0e5f077a1ca5131333b41feeaf973acec5ae

7211c53f08017bfb170f4bea6a2a95055c588b21

840bf5ce533801d562cd3a4d012b851b6935f24a

d47673d4e01eb763832f638ce83def26a6ce034e

6a605eb0394ce932c7ba25d472350abcd55b3337

ac477fb2f0510d0dc48d91453f1d1a22a6a0b299

ed43e0ef3dc04d29b907a3995a07e0fc57b6e50c

7a4e72ab1221e3635dfe6190986289e6007aa472

7fcee4f0e422214b5a4babe65c6cf14b05b54a1d

c8e91244f1d0bd9607d082cfd75818e430ac1b6a

33da7c5af1c457f6dfb10c4c11219c6b36ab984b

e807add88dade1b86e86e16ad49b7e64d34f1dcc

72b09ed73769c6f9bf4e54e2e48eb6354150ffe4

5931053b6a5882fa1c25b8aabd85d4bcad67bcc0

ddfd53b16f96f8042f9827a0bbe19b31bc8219af

5096e757ffbcb1dab0b6d990c69c6072d4c50bcd

6a6794c9752ed8ac7d5cfc4787f1c597eb6d1736

3b9be3ed93e1ddde641bded401d5359b00e160ff

相关文章
|
1月前
|
分布式计算 API Spark
Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码
Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码
66 11
|
1月前
|
分布式计算 并行计算 大数据
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
75 1
|
2月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
57 2
|
1月前
|
分布式计算 Java Scala
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
41 1
|
7天前
|
分布式计算 大数据 数据处理
【Flink】Flink跟Spark Streaming的区别?
【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别?
|
1月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
106 1
|
1月前
|
分布式计算 Spark 索引
Spark学习---day07、Spark内核(Shuffle、任务执行)
Spark学习---day07、Spark内核(源码提交流程、任务执行)
41 2
|
1月前
|
存储 分布式计算 Spark
实战|使用Spark Streaming写入Hudi
实战|使用Spark Streaming写入Hudi
41 0
|
1月前
|
分布式计算 监控 Java
Spark学习---day06、Spark内核(源码提交流程、任务执行)
Spark学习---day06、Spark内核(源码提交流程、任务执行)
41 2
|
1月前
|
分布式计算 Spark
Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
【2月更文挑战第14天】Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
31 1