Kafka的位移索引和时间戳索引（上）

2021-12-22 597

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Kafka的位移索引和时间戳索引

在Kafka的数据路径下有很多.index和.timeindex后缀文件：

.index文件，即Kafka中的位移索引文件
.timeindex文件，即时间戳索引文件。

1 OffsetIndex - 位移索引

1.1 定义

用于根据位移值快速查找消息所在文件位置。

每当Consumer需要从topic分区的某位置开始读消息时，Kafka就会用OffsetIndex直接定位物理文件位置，避免从头读取消息的I/O性能开销。

不同索引类型保存不同的 K.V 对。OffsetIndex的K即消息的相对位移，V即保存该消息的日志段文件中该消息第一个字节的物理文件位置。

相对位移

AbstractIndex类中的抽象方法entrySize定义了单个K.V对所用的字节数。

OffsetIndex的entrySize就是8，如OffsetIndex.scala中定义的那样：

相对位移是个Integer，4字节，物理文件位置也是一个Integer，4字节，因此共8字节。

Kafka的消息位移值是一个长整型（Long），应占8字节。在保存OffsetIndex的K.V对时，Kafka做了一些优化。每个OffsetIndex对象在创建时，都已保存了对应日志段对象的起始位移，因此，OffsetIndex无需保存完整8字节位移值。实际上，只需保存与起始位移的差值，该差值整型存储足矣。这种设计就让OffsetIndex每个索引项都节省4字节。

假设某一索引文件保存1000个索引项，使用相对位移值就能节省大约4M。

AbstractIndex定义了relativeOffset方法

将一个Long位移值转换成相对偏移