【Spark Summit East 2017】工程快速索引

简介: 本讲义出自Daniel Lemire在Spark Summit East 2017上的演讲,主要介绍了当代计算机硬件提供了大量新的性能的机会。然而高性能编程仍是一项艰巨的挑战,演讲中给出了一些对于设计侧重于压缩位图索引的更快索引的经验教训。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Daniel Lemire在Spark Summit East 2017上的演讲,主要介绍了当代计算机硬件提供了大量新的性能的机会。然而高性能编程仍是一项艰巨的挑战,演讲中给出了一些对于设计侧重于压缩位图索引的更快索引的经验教训。压缩位图索引加速查询在流行系统,如Spark, Git, Elastic, Druid与Apache Kylin中的应用。


f399c84d804c8c1e524b29c4d400a0d6942f7ce2

caf407960576ebbd1a3ef640667ec1679862d266

fdc6c7c7b6ba6a4b790e149dc5ecc3b31217f37f

b00ffb89b90dcc4c5672df4ca46914dfe391c2d6

18d59137c5e1cf23ee09ba1f4079990ffbc0b80c

8c11e5eb694bcd1526ecc00d6c9f1d20ca81828a

090d5dfd05c6695f418c53c0eba30bd0c82801fb

516ce980f962ecc41650a5c56383d4cccc9bf2aa

51cba3fc43d95ede17e0c66847344fb6585f6e73

d20bc026a3a2224ee91150897d321aa31b152bff

1e63de2ed2816f9a0e47ce3958b70923cd46518d

ad2bbf020630a0eba035ee5e8aba2b76407e1153

21b85419b155b9f3c5c82cd4e7754d047f39c572

1b5b1811afc12daa60867e53fa8ed8f972b3a085

d922bd3a803357c40280f5b0d032c6144a82ffe2

f742f57c4b8529728bd5eb20b7cffeeca8a68f7a

d036db40294f21ef73f5dfbfe1bec4e710825144

bf6be638d74bd53479073abb06607009e4c356fe

e9ef6f252cfcf2ec90950a43b9227a109398b171

74968bec90cada32a282e7ddec5f11bfa20e8f1b

c51af03b390935150d2673edfb66a5c5e8e9b053

43cdf73488c4a60035f6f2dc8cc78bae8ad5b38b

eb66bc5f452fe56d1d44f516e12d22a3774ff9f5

3e1a689236936623b9c235623d4d2363ff7e50b4

c3fb97f00c3855a0ec41ee653d304da564e12cd5

9323331360e47c5a6aa6216d39d7e41e0703687a

相关文章
|
1月前
|
分布式计算 API Spark
Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码
Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码
66 11
|
存储 分布式计算 大数据
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
425 0
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
|
分布式计算 Hadoop Linux
云计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark | Docker]更新索引 |动态更新
为了能够更好的查看所更新的文章,讲该博文设为索引 小约定 为了解决在编辑文件等操作的过程中的权限问题,博主一律默认采用root账户登录 对于初次安装的用户可以采用如下命令行:
116 0
云计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark | Docker]更新索引 |动态更新
|
SQL 分布式计算 Java
spark-shell操作hudi并使用hbase作为索引
本文介绍spark-shell操作hudi并使用hbase作为索引
spark-shell操作hudi并使用hbase作为索引
|
SQL 存储 缓存
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
|
SQL 存储 分布式计算
Spark访问多元索引-快速开始
本文介绍如何在E-MapReduce集群中使用Spark SQL访问表格存储的多元索引。 ### 前置准备 1. 创建E-MapReduce Hadoop集群,步骤参见[E-MapReduce快速入门](https://help.aliyun.com/document_detail/65683.html)。创建时挂载公网地址,用于后续的Shell远程登陆。 ![1.png](http
292 0
Spark访问多元索引-快速开始
|
SQL 存储 JSON
Spark访问多元索引-细则剖析
## 背景 表格存储可以为Spark提供**KV查询(主表,全局二级索引表)**、**多元索引查询**两套数据访问方式,以支持海量结构化数据快速读写和丰富的SQL查询分析能力。其分布式存储的特点和强大的索引引擎能够支持PB级存储、千万TPS以及毫秒级延迟的服务能力。 KV访问方式指的是主表和全局二级索引访问方式,其中主表指的是Tablestore的源数据主表,全局二级索引和多元索引的介绍见
468 0
Spark访问多元索引-细则剖析
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题