开发者社区大数据与机器学习实时计算 Flink 正文

如何区别存储和索引的方式，以及整个用户视角看起来它大概是什么样的？

展开

收起

Medusa 2021-11-12 16:15:21 617 版权

1 条回答

写回答

取消提交回答

云上静思

如图示，用户写了一个 SQL 之后，首先会按照用户分区键路由到对应要找的表上面，找对逻辑对象 Table。

第二步通过 Distribution Key 找到对应 Shard。

第三步是 Segment Key，找到 Shard 之后要找对应 Shard 上面的文件，因为实际数据是存储成一个个文件，我们通过 Segment Key 找到想要打开的文件。

第四步是在文件内部，数据是否有序，这是通过 Clustering Key 来查找的，Clusterin g Key 帮助我们找对实际文件区间。

第五步是 Bitmap。因为 Hologres 把数据按照一个个 Batch 存储，在一个 Batch 里面，我们需要通过 Bitmap 快速定位到某一行，否则需要把某一个区间范围内所有的数据扫一遍。

图中从上往下不同的过程，越来越到文件内部，越往上是越大的范围。

资料来源：《实时数仓“王炸组合”-实时计算》，下载链接：https://developer.aliyun.com/topic/download?id=7944

2021-11-12 18:34:47

赞同展开评论

问答分类：

存储索引实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

购买阿里国外的云服务器是否可以访问谷歌？

83669

请问下我访问接口不通什么原因 Provisional headers are shown

3706

sql server的用户名和密码怎么查啊？

37504

重启Docker后报错：Error response from daemon

2293

this xml file does not appear to have any style in

51861

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60928

OSS的endpoint如何查看

37487

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3650

阿里云服务器如何重置系统？

24719

LoRa的网络覆盖能力范围是怎么样的？

3158

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

最近邻检索（下）：如何用乘积量化实现「拍照识花」功能？

存储系统：从检索技术角度剖析 LevelDB 的架构设计思想

搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

广告系统：广告引擎如何做到在 0.1s 内返回广告信息？

推荐引擎：没有搜索词，「头条」怎么找到你感兴趣的文章？

如何区别存储和索引的方式，以及整个用户视角看起来它大概是什么样的？

实时计算 Flink

相关文章

热门讨论

热门文章