cassandra主键索引介绍

简介: 主键索引格式如下: summery.db:index文件的索引,对partition做sampling索引,加快查找。 index.db:索引文件,data文件中每个partition都会有一个索引项,指向该partition在data文件中的偏移,还有对clustering的采样(sampling)索引,可直接指向具体clustering数据偏移。

主键索引格式如下:

image

  • summary.db:
    index文件的索引,对partition做sampling索引,加快查找。
  • index.db:
    索引文件,data文件中每个partition都会有一个索引项,指向该partition在data文件中的偏移,还有对clustering的采样(sampling)索引,可直接指向具体clustering数据偏移。
  • data.db:
    数据文件,完整格式

查找过程

summary是一个sstable概述,header中记录了最大partition,最小partition,这样我们指定key查找时,可以很方便判断是否要跳过这个这个sstable。当memtable flush本地文件时,不断写data及index文件,同时也会对index.db文件取样,index.db索引项每写入128个,会在summary中记录一下当前采样项目,同时会记录index.db的文件偏移,summary文件目前就是为了加快查找。index.db文件中的rowIndexEntry其实就是索引data文件中的PartitionKey数据的,一一对应,dataFilePostion记录了该partition在data文件中的偏移。在cassandra中一个partition允许上G大小,所以势必会有很多cluster,如果一次主键查找需要扫描整个上G数据段,效率可想而知。所以cassandra 在rowIndexEntry会写入很多indexInfo,indexInfo是clustering的索引,也是128行clustring数据采样一次,产生一个indexInfo,所以这个indexInfo会包括这段范围内的clustering信息,起始/结束时clustering,还有对应数据文件的偏移。rowIndexEntry数据结构尾部是一串offset,指向前面的一个个indexInfo,因为clustering是变长的,indexInfo也是变长的,使用offset记录偏移加速访问。正因为上述索引体系结构,对于partitionKey+clustering的查找,可以先找到indexInfo,再去读数据文件。

钉钉群

lALPDgQ9ql0mM3XMp8yo_168_167_png_620x10000q90g

钉钉群入群链接:https://c.tb.cn/F3.ZRTY0o

相关文章
|
7月前
|
自然语言处理 算法 安全
从“是什么”到“为什么”:Aloudata Agent 智能归因的底层逻辑与配置指南
Aloudata Agent 是 Aloudata 推出的一套分析决策智能体,将 NoETL 明细语义层作为数据底座,以指标为中心进行语义一致的对话式数据分析。通过自然语言即刻获取数据结果,支持智能数据结果解读,以及智能多维归因和因子归因分析,让企业深层次洞察异常数据波动原因。
|
6月前
|
人工智能 安全 机器人
麻省理工科技评论发布2026年十大突破性技术,AI独占四席
《麻省理工科技评论》2026年“十大突破性技术”榜单发布,AI技术占据四席,涵盖超大规模数据中心、机制可解释性、AI陪伴与生成式编码,彰显其主导地位。榜单不仅反映技术从“能做”到“该做”的转向,更揭示AI正深度融入社会骨骼,推动算力、伦理与产业变革,开启智能新纪元。
1623 7
|
6月前
|
关系型数据库 MySQL 分布式数据库
阿里云数据库上云优选活动参考:RDS年付88元起!RDS/PolarDB+DAS运维服务降低运维门槛
2026年阿里云数据库上云优选活动为用户推出了多款特惠云数据库产品,RDS年付88元起;RDS PostgreSQL 基础系列标准版2核4G(通用型)227.99/1年;数据传输服务 DTS99.00/1月。本文为大家整理了阿里云数据库上云优选活动的具体内容,以供参考。
869 3
|
6月前
|
数据采集 监控 API
【量化基础】数据驱动决策:从零接入StockTV实时行情API
本文介绍量化交易基础,详解如何用Python对接StockTV实时行情API,获取毫秒级数据。涵盖REST与WebSocket实战代码,助你构建稳定策略,从数据获取迈向自动化交易,夯实量化基石。(238字)
|
数据采集 自然语言处理 搜索推荐
python 【包含数据预处理】基于词频生成词云图
这段文本是关于如何使用Python基于词频生成词云图的教程。内容包括:1) 中文分词的必要性,因中文无明显单词边界及语言单位特性;2) 文本预处理步骤,如移除特殊符号、网址、日期等;3) 使用`data_process`函数清除无用字符;4) `getText`函数读取并处理文本为句子数组;5) 使用jieba分词库进行分词和词频统计;6) 示例代码展示了从分词到生成词云的完整流程,最后展示生成的词云图。整个过程旨在从中文文本中提取关键词并可视化。
1184 5
python 【包含数据预处理】基于词频生成词云图
|
图形学 开发者 搜索推荐
Unity Asset Store资源大解密:自制与现成素材的优劣对比分析,教你如何巧用海量资产加速游戏开发进度
【8月更文挑战第31天】游戏开发充满挑战,尤其对独立开发者或小团队而言。Unity Asset Store 提供了丰富的资源库,涵盖美术、模板、音频和脚本等,能显著加快开发进度。自制资源虽具个性化,但耗时长且需专业技能;而 Asset Store 的资源经官方审核,质量可靠,可大幅缩短开发周期,使开发者更专注于核心玩法。然而,使用第三方资源需注意版权问题,且可能需调整以适应特定需求。总体而言,合理利用 Asset Store 能显著提升开发效率和项目质量。
681 1
|
存储 缓存 算法
数据空间
数据空间(Data Space)是计算机系统中用于存储和管理数据的区域。数据空间包括处理器内部的寄存器、数据缓存(Data Cache)以及内存中的数据段(Data Segment)等。数据空间的作用是接收、存储和处理来自外部设备或程序的数据,从而实现计算机系统的功能。
1654 4
|
API
表情包-百度版免费API接口教程
该接口用于通过指定关键词从百度渠道获取表情包,支持POST或GET请求。需提供用户ID和KEY,可选参数包括关键词、页码及结果数量。返回数据包含状态码、信息提示、结果集等。示例中ID与KEY为公共测试用,建议使用个人ID与KEY以享受更高调用频率。
1876 4
|
边缘计算 物联网 5G
5G小基站技术:解决室内覆盖难题
【10月更文挑战第25天】
1037 5
|
数据挖掘 Python
四分位距方法
四分位距方法