【Spark Summit East 2017】WalmartLabs近实时搜索索引的Lambda处理

简介: 本讲义出自Snehal Nagmote在Spark Summit East 2017上的演讲,WalmartLabs每天都在获取数以百万计的产品信息,为了寻求为客户提供无缝的购物体验,WalmartLabs开发了接近实时索引的数据管道,该数据管道是动态更新产品目录以及其他特性的关键的组件。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Snehal Nagmote在Spark Summit East 2017上的演讲,WalmartLabs每天都在获取数以百万计的产品信息,为了寻求为客户提供无缝的购物体验,WalmartLabs开发了接近实时索引的数据管道,该数据管道是动态更新产品目录以及其他特性的关键的组件。演讲中还分享了WalmartLabs的实时搜索索引的Lambda处理方法以及如何对于数据管道进行自动部署。


f78b79f58899d8794d3b829f4527470c7b0bf1e0

f250cac870808b11b081dc7b4c8efaef0397bd92

7571ac6e2577c25066406ffd6bd0158048653007

c5fa3a9d4905350f975e2abca45572f231303d6d

a9ef57f4ff680ce3cc05b99eed6bd7f45035550e

9eb510a88f287bc6dfe42bfaa6159f2d5c3b47d5

e167555e499a889b812428a61129c7e9c30719e0

be7730f27461dbdec3e7447f564f138231f34e03

e14396b3fa897825c85052c9676c9c12bf197885

34c46277530d5b056f1521e5e3e193e5e79e8e72

92644147ce143dc1da6b862e935c4f7b5a863a2d

8566e05d92499c3d16c91e89d213e916fd9ee068

d065de3365fbb3441f7ee0dba38f3f0851530d7a

88a9109c4f738b3412915ebc7969bace17724a22

30db48f69293aee31c2af27a0bfea6796632277a

da5363bb8b6ed0684be353264fcdb0dfc3fe5fd2

9e956bf6c87e576e6ece1b8ddc88c336143266e2

5168e986c86a0772d2c599cfe6ec6c47f19c5224

cebc14fd9d4d02b9a361a37f1f05ecbc7774393a

相关文章
|
存储 分布式计算 大数据
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
529 0
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
|
分布式计算 Hadoop Linux
云计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark | Docker]更新索引 |动态更新
为了能够更好的查看所更新的文章,讲该博文设为索引 小约定 为了解决在编辑文件等操作的过程中的权限问题,博主一律默认采用root账户登录 对于初次安装的用户可以采用如下命令行:
138 0
云计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark | Docker]更新索引 |动态更新
|
人工智能 分布式计算 大数据
Spark + AI Summit 2020 中文议题有奖征集
北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。
Spark + AI Summit 2020 中文议题有奖征集
|
SQL 存储 缓存
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
|
SQL 存储 分布式计算
Spark访问多元索引-快速开始
本文介绍如何在E-MapReduce集群中使用Spark SQL访问表格存储的多元索引。 ### 前置准备 1. 创建E-MapReduce Hadoop集群,步骤参见[E-MapReduce快速入门](https://help.aliyun.com/document_detail/65683.html)。创建时挂载公网地址,用于后续的Shell远程登陆。 ![1.png](http
320 0
Spark访问多元索引-快速开始
|
SQL 存储 JSON
Spark访问多元索引-细则剖析
## 背景 表格存储可以为Spark提供**KV查询(主表,全局二级索引表)**、**多元索引查询**两套数据访问方式,以支持海量结构化数据快速读写和丰富的SQL查询分析能力。其分布式存储的特点和强大的索引引擎能够支持PB级存储、千万TPS以及毫秒级延迟的服务能力。 KV访问方式指的是主表和全局二级索引访问方式,其中主表指的是Tablestore的源数据主表,全局二级索引和多元索引的介绍见
525 0
Spark访问多元索引-细则剖析
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题