lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件变为pos和doc；存储term vector多了tvx和tvd文件有337M-阿里云开发者社区

lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件变为pos和doc；存储term vector多了tvx和tvd文件有337M

2017-11-14 1213

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

store NO
压缩后的原始数据原始数据大小索引大小索引时间单词搜索时间
266 791 594 176 0.2
文件组成见后

运行forceMerge(3）后 merge的本质是减少cfx文件变为pos和doc
索引大小 .doc .pos tip/tim cfs 仅1个
506 132 62 267 33

field store NO 索引大小 594
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.15 72 37 180 298

field store YES 索引大小 1.06
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
302 76 39 204 461

field store NO 同时NOT_ANALYZED 索引大小 669
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.01 0.2 11 635 21

field store NO IndexOptions.DOCS 索引大小 383
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.2 108 0.2 180 85
OmitNorms 索引大小 380

field store NO IndexOptions.DOCS 加 int ID后索引大小 383
加string ID 索引大小 393
加string ID StoreTermVectors(true);

索引大小 1G 发现tvx和tvd文件有337M

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/6612789.html，如需转载请自行联系原作者

文章标签：

索引

存储

lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件变为pos和doc；存储term vector多了tvx和tvd文件有337M

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件 变为pos和doc；存储term vector多了tvx和tvd文件有337M

热门文章

最新文章

相关电子书

lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件变为pos和doc；存储term vector多了tvx和tvd文件有337M