【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames

简介: 本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,Walmart Lab目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。最后,还分享了Walmart Lab得出的观点:Spark Streaming与Data Frames是处理大规模实时数据流的关键技术。


44c19eb38604576f1f688b35c5327e30e3d55f48

b8ecfa35648483687758f3a742093968a54d3971

de9c87bb5b85d87c5e2c3322c2c478275d4c0998

acae098617892babd8ce89c3a8c7919df1009741

5cba0e5f077a1ca5131333b41feeaf973acec5ae

7211c53f08017bfb170f4bea6a2a95055c588b21

840bf5ce533801d562cd3a4d012b851b6935f24a

d47673d4e01eb763832f638ce83def26a6ce034e

6a605eb0394ce932c7ba25d472350abcd55b3337

ac477fb2f0510d0dc48d91453f1d1a22a6a0b299

ed43e0ef3dc04d29b907a3995a07e0fc57b6e50c

7a4e72ab1221e3635dfe6190986289e6007aa472

7fcee4f0e422214b5a4babe65c6cf14b05b54a1d

c8e91244f1d0bd9607d082cfd75818e430ac1b6a

33da7c5af1c457f6dfb10c4c11219c6b36ab984b

e807add88dade1b86e86e16ad49b7e64d34f1dcc

72b09ed73769c6f9bf4e54e2e48eb6354150ffe4

5931053b6a5882fa1c25b8aabd85d4bcad67bcc0

ddfd53b16f96f8042f9827a0bbe19b31bc8219af

5096e757ffbcb1dab0b6d990c69c6072d4c50bcd

6a6794c9752ed8ac7d5cfc4787f1c597eb6d1736

3b9be3ed93e1ddde641bded401d5359b00e160ff

相关文章
|
7月前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
104 0
|
7月前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
156 0
|
6月前
|
分布式计算 流计算 Spark
【赵渝强老师】Spark Streaming中的DStream
本文介绍了Spark Streaming的核心概念DStream,即离散流。DStream通过时间间隔将连续的数据流转换为一系列不连续的RDD,再通过Transformation进行转换,实现流式数据的处理。文中以MyNetworkWordCount程序为例,展示了DStream生成RDD的过程,并附有视频讲解。
112 0
|
7月前
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
108 0
|
7月前
|
SQL 分布式计算 大数据
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(一)
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(一)
107 0
|
7月前
|
存储 分布式计算 大数据
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(二)
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(二)
96 0
|
7月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
83 0
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题