lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件 变为pos和doc;存储term vector多了tvx和tvd文件有337M

简介:
store NO 
压缩后的原始数据 原始数据大小 索引大小 索引时间 单词搜索时间
266 791 594 176 0.2
文件组成见后

运行forceMerge(3)后 merge的本质是减少cfx文件 变为pos和doc
索引大小 .doc .pos tip/tim cfs 仅1个
506 132 62 267 33



field store NO 索引大小 594
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.15 72 37 180 298

field store YES 索引大小 1.06
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
302 76 39 204 461


field store NO 同时NOT_ANALYZED 索引大小 669
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.01 0.2 11 635 21

field store NO IndexOptions.DOCS 索引大小 383
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.2 108 0.2 180 85
OmitNorms 索引大小 380

field store NO IndexOptions.DOCS 加 int ID后 索引大小 383
加string ID 索引大小 393
加string ID StoreTermVectors(true);

索引大小 1G 发现tvx和tvd文件有337M













本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6612789.html,如需转载请自行联系原作者

相关文章
|
3月前
|
Go 索引
Go 1.22 slices 库的更新:高效拼接、零化处理和越界插入优化
本文详细介绍了 Go 1.22 版本中 slices 库的更新内容,总结起来有三个方面:新增了 Concat 函数、对部分函数新增了零化处理的逻辑和对 Insert 函数进行了越界插入优化
100 1
Go 1.22 slices 库的更新:高效拼接、零化处理和越界插入优化
|
12月前
|
缓存 自然语言处理 数据挖掘
白话Elasticsearch50-深入聚合数据分析之基于doc values正排索引的聚合内部原理
白话Elasticsearch50-深入聚合数据分析之基于doc values正排索引的聚合内部原理
80 0
|
12月前
|
缓存 Java 数据挖掘
白话Elasticsearch50-深入聚合数据分析之doc values机制
白话Elasticsearch50-深入聚合数据分析之doc values机制
74 0
|
Linux 数据处理 Ruby
cdo (Climate Data Operators ) 常用命令介绍:(查看文件信息、多文件合并、数据裁剪、数据插值、数据计算。。)
cdo (Climate Data Operators ) 常用命令介绍:(查看文件信息、多文件合并、数据裁剪、数据插值、数据计算。。)
cdo (Climate Data Operators ) 常用命令介绍:(查看文件信息、多文件合并、数据裁剪、数据插值、数据计算。。)
|
存储 机器学习/深度学习 缓存
针对存储排序文件过程中合并和压缩的算法LSM-Tree
LSM-Tree全称为Log-Structured Merge-Tree,日志结构合并树,它的架构分为内存部分和有序的磁盘部分,内存部分实现高速写,有序的磁盘部分实现高效查。
641 0
针对存储排序文件过程中合并和压缩的算法LSM-Tree
ADI
|
机器学习/深度学习 JavaScript 算法
[记录]我的Diff算法学习路径
[记录]我的Diff算法学习路径
ADI
111 0