lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件 变为pos和doc;存储term vector多了tvx和tvd文件有337M

简介:
store NO 
压缩后的原始数据 原始数据大小 索引大小 索引时间 单词搜索时间
266 791 594 176 0.2
文件组成见后

运行forceMerge(3)后 merge的本质是减少cfx文件 变为pos和doc
索引大小 .doc .pos tip/tim cfs 仅1个
506 132 62 267 33



field store NO 索引大小 594
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.15 72 37 180 298

field store YES 索引大小 1.06
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
302 76 39 204 461


field store NO 同时NOT_ANALYZED 索引大小 669
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.01 0.2 11 635 21

field store NO IndexOptions.DOCS 索引大小 383
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.2 108 0.2 180 85
OmitNorms 索引大小 380

field store NO IndexOptions.DOCS 加 int ID后 索引大小 383
加string ID 索引大小 393
加string ID StoreTermVectors(true);

索引大小 1G 发现tvx和tvd文件有337M













本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6612789.html,如需转载请自行联系原作者

相关文章
|
6月前
|
Go 索引
Go 1.22 slices 库的更新:高效拼接、零化处理和越界插入优化
本文详细介绍了 Go 1.22 版本中 slices 库的更新内容,总结起来有三个方面:新增了 Concat 函数、对部分函数新增了零化处理的逻辑和对 Insert 函数进行了越界插入优化
172 1
Go 1.22 slices 库的更新:高效拼接、零化处理和越界插入优化
|
6月前
|
存储 自然语言处理
QT案例词典 -- 存储内容及遍历
QT案例词典 -- 存储内容及遍历
48 1
|
缓存 自然语言处理 数据挖掘
白话Elasticsearch50-深入聚合数据分析之基于doc values正排索引的聚合内部原理
白话Elasticsearch50-深入聚合数据分析之基于doc values正排索引的聚合内部原理
109 0
|
数据挖掘
白话Elasticsearch53-深入聚合数据分析之Collect Model_bucket优化机制:深度优先、广度优先
白话Elasticsearch53-深入聚合数据分析之Collect Model_bucket优化机制:深度优先、广度优先
82 0
|
自然语言处理 算法 数据挖掘
白话Elasticsearch51-深入聚合数据分析之text field聚合以及fielddata原理
白话Elasticsearch51-深入聚合数据分析之text field聚合以及fielddata原理
120 0
|
算法
白话Elasticsearch15-深度探秘搜索技术之使用copy_to定制组合field解决cross-fields搜索弊端
白话Elasticsearch15-深度探秘搜索技术之使用copy_to定制组合field解决cross-fields搜索弊端
86 0
|
缓存 索引
白话Elasticsearch02- 结构化搜索之filter执行原理bitset机制与caching机制
白话Elasticsearch02- 结构化搜索之filter执行原理bitset机制与caching机制
96 0
|
缓存 Java 数据挖掘
白话Elasticsearch50-深入聚合数据分析之doc values机制
白话Elasticsearch50-深入聚合数据分析之doc values机制
105 0
|
存储 关系型数据库 PostgreSQL
索引顺序扫描引发的heap scan IO放大, 背后的统计学原理与解决办法
标签 PostgreSQL , 优化器 , 索引扫描 , 堆扫描 , IO放大 背景 通过B-TREE索引扫描可能会带来了巨大的heap page scan数目,即IO的放大. 为什么呢? 示例视频如下 : http://www.tudou.com/programs/view/yQ0SzBqx_4w/ 如果数据库的单个数据块(block_size)很大的话, 这种情况带来的负面影响也将被放大. 例如32k的block_size显然比8k的block_size扫描开销更大. 本文将讲解一下索引扫描引发的heap page scan放大的原因, 以及解决办法。
3819 0