lucene 索引文件大小分布_tim

简介:

Hi,

I have index ~31G where
27% of the index size is .fdt files (8.5G)
20% - .fdx files (6.2G)
37% - .frq files (11.6G)
16% - .tim files (5G)

 

This is the term dictionary for 4.0's default codec (currently uses
BlockTree implementation)

.tim is the on-disk portion of the terms (similar in function to .tis
in previous releases)
.tip is the in-memory "terms index" (similar in function to .tii in
previous releases)

 

见:http://grokbase.com/t/lucene/solr-user/124ha4e1bb/solr-4-0-what-is-stored-in-tim-index-file-format


















本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6669122.html,如需转载请自行联系原作者


相关文章
|
机器学习/深度学习 人工智能 自然语言处理
Elasticsearch 向量搜索
Elasticsearch 向量搜索
897 0
|
SQL Java 数据库连接
Mybatis多表关联查询与动态SQL(上)
Mybatis多表关联查询与动态SQL
403 0
|
8月前
|
C#
C# 中关于补位的写法 PadLeft,PadRight 函数
C# 中的 `PadLeft` 和 `PadRight` 是 String 类提供的用于字符串补位的实用方法。`PadLeft` 在字符串左侧填充指定字符,使其达到指定长度;`PadRight` 则在右侧填充。两者通过检查原字符串长度,计算需填充字符数,并创建新字符数组完成操作。时间复杂度为 O(n),适用于简单补位场景,但在大量操作时需注意性能影响。示例代码展示了如何使用这两个方法进行补位操作。
|
人工智能 JSON 文字识别
【实操】Java+百度ocr,实现图片识别文字小工具
本文介绍了一个基于Java和百度OCR的文字识别工具,能够通过截图或上传图片实现文字识别,并使用exe4j将工具封装为exe文件以便于使用。文章详细介绍了实现过程,包括Java Swing页面布局、百度OCR配置及使用方法,以及如何将Java项目打包成jar和exe文件。此外,还提供了一些相关资源供读者参考。
540 0
【实操】Java+百度ocr,实现图片识别文字小工具
|
12月前
|
监控 Java Perl
使用jstat工具来监控G1垃圾回收器的性能
使用jstat工具来监控G1垃圾回收器的性能
|
XML 缓存 Java
MyBatis二级缓存解密:深入探究缓存机制与应用场景
MyBatis二级缓存解密:深入探究缓存机制与应用场景
596 2
MyBatis二级缓存解密:深入探究缓存机制与应用场景
|
监控 数据可视化 Java
Elasitcsearch CPU 使用率突然飙升,怎么办?
Elasitcsearch CPU 使用率突然飙升,怎么办?
|
存储 SQL 大数据
矢量数据库与传统数据库的对比:优势与挑战
【4月更文挑战第30天】矢量数据库与传统数据库对比:矢量数据库擅长处理高维数据和相似性搜索,适用于AI及大数据场景,但技术复杂度高,集成与数据迁移具挑战;传统数据库成熟稳定,简单易用且支持广泛,但在处理非结构化数据上不足。选择需依据具体业务需求。
|
存储 索引
Elasticsearch中父子文档的关联:利用Join类型赋予文档的层级关系
Elasticsearch中父子文档的关联:利用Join类型赋予文档的层级关系