开发者社区大数据文章正文

【Spark Summit East 2017】WalmartLabs近实时搜索索引的Lambda处理

2017-02-20 1880

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Snehal Nagmote在Spark Summit East 2017上的演讲，WalmartLabs每天都在获取数以百万计的产品信息，为了寻求为客户提供无缝的购物体验，WalmartLabs开发了接近实时索引的数据管道，该数据管道是动态更新产品目录以及其他特性的关键的组件。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Snehal Nagmote在Spark Summit East 2017上的演讲，WalmartLabs每天都在获取数以百万计的产品信息，为了寻求为客户提供无缝的购物体验，WalmartLabs开发了接近实时索引的数据管道，该数据管道是动态更新产品目录以及其他特性的关键的组件。演讲中还分享了WalmartLabs的实时搜索索引的Lambda处理方法以及如何对于数据管道进行自动部署。

f78b79f58899d8794d3b829f4527470c7b0bf1e0

f250cac870808b11b081dc7b4c8efaef0397bd92

7571ac6e2577c25066406ffd6bd0158048653007

c5fa3a9d4905350f975e2abca45572f231303d6d

a9ef57f4ff680ce3cc05b99eed6bd7f45035550e

9eb510a88f287bc6dfe42bfaa6159f2d5c3b47d5

e167555e499a889b812428a61129c7e9c30719e0

be7730f27461dbdec3e7447f564f138231f34e03

e14396b3fa897825c85052c9676c9c12bf197885

34c46277530d5b056f1521e5e3e193e5e79e8e72

92644147ce143dc1da6b862e935c4f7b5a863a2d

8566e05d92499c3d16c91e89d213e916fd9ee068

d065de3365fbb3441f7ee0dba38f3f0851530d7a

88a9109c4f738b3412915ebc7969bace17724a22

30db48f69293aee31c2af27a0bfea6796632277a

da5363bb8b6ed0684be353264fcdb0dfc3fe5fd2

9e956bf6c87e576e6ece1b8ddc88c336143266e2

5168e986c86a0772d2c599cfe6ec6c47f19c5224

cebc14fd9d4d02b9a361a37f1f05ecbc7774393a

文章标签：

索引

大数据

分布式计算

Spark

MaxCompute

关键词：

apache spark索引

apache spark east

apache spark summit

apache spark summit lambda

小猫吃鱼569

6hkip34i2a7n6

存储分布式计算大数据

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

6hkip34i2a7n6

989 0 0

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

开源大数据EMR

人工智能分布式计算大数据

Spark + AI Summit 2020 中文议题有奖征集

北美 Spark + AI Summit 2020 盛会在即，Apache Spark 中国技术交流社区在此诚邀各位，代表国内开发者选择您最希望听到的主题，届时社区将联合国内顶尖技术专家一一展开中文形式分享。

开源大数据EMR

1371 0 1

pushytao

分布式计算 Hadoop Linux

为了能够更好的查看所更新的文章，讲该博文设为索引小约定为了解决在编辑文件等操作的过程中的权限问题，博主一律默认采用root账户登录对于初次安装的用户可以采用如下命令行：

pushytao

338 0 0

云计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark | Docker]更新索引 |动态更新

阿里云E-MapReduce团队

SQL 存储缓存

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。

阿里云E-MapReduce团队

1979 0 0

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

琸然

SQL 存储分布式计算

Spark访问多元索引-快速开始

本文介绍如何在E-MapReduce集群中使用Spark SQL访问表格存储的多元索引。 ### 前置准备 1. 创建E-MapReduce Hadoop集群，步骤参见[E-MapReduce快速入门](https://help.aliyun.com/document_detail/65683.html)。创建时挂载公网地址，用于后续的Shell远程登陆。 ![1.png](http

琸然

489 0 0

琸然

SQL 存储 JSON

Spark访问多元索引-细则剖析

## 背景表格存储可以为Spark提供**KV查询(主表，全局二级索引表)**、**多元索引查询**两套数据访问方式，以支持海量结构化数据快速读写和丰富的SQL查询分析能力。其分布式存储的特点和强大的索引引擎能够支持PB级存储、千万TPS以及毫秒级延迟的服务能力。 KV访问方式指的是主表和全局二级索引访问方式，其中主表指的是Tablestore的源数据主表，全局二级索引和多元索引的介绍见

琸然

746 0 0

阿里云E-MapReduce团队

SQL 人工智能分布式计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

阿里云E-MapReduce团队

23170 0 0

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

阿里云E-MapReduce团队

人工智能分布式计算 Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

阿里云E-MapReduce团队

1105 0 0

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

阿里云E-MapReduce团队

1953 0 0

阿里云E-MapReduce团队

分布式计算 Prometheus Kubernetes

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

阿里云E-MapReduce团队

2687 0 0

【Spark Summit East 2017】WalmartLabs近实时搜索索引的Lambda处理

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit East 2017】WalmartLabs近实时搜索索引的Lambda处理

热门文章

最新文章

相关课程

相关电子书