lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件 变为pos和doc;存储term vector多了tvx和tvd文件有337M

简介:
store NO 
压缩后的原始数据 原始数据大小 索引大小 索引时间 单词搜索时间
266 791 594 176 0.2
文件组成见后

运行forceMerge(3)后 merge的本质是减少cfx文件 变为pos和doc
索引大小 .doc .pos tip/tim cfs 仅1个
506 132 62 267 33



field store NO 索引大小 594
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.15 72 37 180 298

field store YES 索引大小 1.06
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
302 76 39 204 461


field store NO 同时NOT_ANALYZED 索引大小 669
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.01 0.2 11 635 21

field store NO IndexOptions.DOCS 索引大小 383
索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
0.2 108 0.2 180 85
OmitNorms 索引大小 380

field store NO IndexOptions.DOCS 加 int ID后 索引大小 383
加string ID 索引大小 393
加string ID StoreTermVectors(true);

索引大小 1G 发现tvx和tvd文件有337M













本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6612789.html,如需转载请自行联系原作者

相关文章
|
5月前
|
存储 缓存 人工智能
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。
|
SQL 监控 关系型数据库
MySQL Binlog深度解析:进阶应用与实战技巧【进阶应用】
MySQL Binlog深度解析:进阶应用与实战技巧【进阶应用】
887 0
|
存储 安全 算法
RSA非对称加密算法中的密钥对生成与传输
RSA非对称加密算法的密钥对生成与传输是信息安全领域的核心问题之一。密钥生成过程需要保证随机性和安全性,而密钥的传输则需要选择适当的方式来确保其保密性和完整性。通过合理的密钥管理和保护措施,可以有效地利用RSA算法保护通信安全,防止信息泄露和篡改。在实际应用中,用户和系统管理员需要结合具体情况选择最佳的密钥生成和传输策略,以达到最佳的安全性和效率。
290 0
|
机器学习/深度学习 算法 PyTorch
PyTorch中的动态计算图与静态计算图
【4月更文挑战第18天】PyTorch的动态计算图在运行时构建,灵活且易于调试,适合模型开发,但执行效率相对较低,不易优化。静态计算图预定义,执行效率高,利于优化,适用于对效率要求高的场景,但灵活性和调试难度较大。两者在模型开发与部署阶段各有优势。
|
机器学习/深度学习 人工智能 负载均衡
【推理引擎:核心原理】系列来啦!从入门到昇腾!
《AI推理引擎:核心原理》这个系列的内容:从推理系统整体架构开始,然后到模型小型化、模型压缩,在真正推理之前需要进行模型转换和图优化,最后到kernel和runtime优化。
1483 0
【推理引擎:核心原理】系列来啦!从入门到昇腾!
|
并行计算 Linux C++
Linux上C++与CUDA混合编程
Linux上C++与CUDA混合编程
|
Kubernetes NoSQL Cloud Native
Juice FS 初探 | 一种为 VPS 提供无限磁盘空间的解决方案
**JuiceFS** 是一款面向云原生设计的高性能分布式文件系统,在 Apache 2.0 开源协议下发布
580 0
|
自然语言处理 IDE Java
有了这12款idea插件后,室友再也不叫我小白了
搞Java开发用什么软件,当然是神器idea了,那么,idea的插件对于你来说就是必不可少的了,不仅可以提高自己的编码效率,还可以减轻工作时的枯燥烦闷。接下来就来说说,作为一名小白,我在平时敲代码用的什么插件吧。
407 0
有了这12款idea插件后,室友再也不叫我小白了
|
Cloud Native 云计算 开发者
|
数据库 索引 搜索推荐
Elasticsearch大文件检索性能提升20倍实践(干货)
本文,详细记录了大文件的全文检索性能问题排查及提升实践方式。
889 1