Performance optimization with Lucene4.0

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里

Performance optimization with Lucene4.0
原文链接http://www.google.com.hk/url?sa=t&rct=j&q=performance+optimization+with+lucene+4&source=web&cd=1&ved=0CDYQFjAA&url=http://archive.apachecon.com/eu2012/presentations/06-Tuesday/PR-Lucene/aceu-2012-lucene-4-performance-tuning.pdf&ei=axTMUPO9E8yViAfo_oDYDQ&usg=AFQjCNG4lXwTLU-MAl6czbUHhIrdez7AzQ&bvm=bv.1355325884,d.aGc&cad=rjt
该报告中不少亮点,例如:
1 Pluggable Codecs
2 Per Document Values
DocValues
3 Concurrent Flush  
无锁多线程写索引
4 Multiple Scoring Models flexible ranking
排序调优接口的开发、经典模型的调参
5 New Term Dictionary
6 From UTF-16 to UTF-8  no string ojbects anymore

最为关心的对应用来说,查询的性能相关
7 500% faster Filter
8 100x to 200x  FuzzyQuery
9 reduces memory footprint 30x
10 10x faster than FieldCache for a float field
11
近似2倍的索引构建性能提升

实践中
1
倒排结构的 可侵入,意味着倒排的结构细粒度的可控,针对具体数据类型。例如key-value型突出的,可以
针对性去掉一些信息
2
各部分codec的可以选择,意味者对特定的数据结构可以采取特定的优化编码
3
得分模型的可配置和可调参,意味着排序的灵活性和更加有针对性的可定制化
4
整个代码结构和接口命名更加规范,便于理解和扩展
5
第三方包的丰富和增强,拿来用成本更低
6 collector
的可定制,为查询优化开了一个极大地口子
7
方便新技术的实验,例如SSD的扩展,针对SSD特性指定有效的存储结构
8
新的结构更加松散和清晰,意味着lucene C++版本搜索借鉴,成本大大降低

目录
相关文章
|
3月前
|
算法 数据挖掘 数据处理
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。
34 2
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
|
4月前
|
存储 关系型数据库 MySQL
Optimization and Indexes
MySQL通过索引快速定位具有特定列值的行,避免全表扫描,提高查询效率。常用的索引如PRIMARY KEY、UNIQUE等大多存储在B树中,特殊情况使用R树或哈希索引。索引帮助快速匹配WHERE子句条件的行,减少候选行数,并在多列索引和表连接操作中优化查询。具体特性如B树和哈希索引的比较见特定章节。
|
8月前
|
缓存 监控 前端开发
Performance Optimization
Performance Optimization
114 2
|
8月前
|
Oracle 关系型数据库
Adaptive Query Optimization
Adaptive Query Optimization
50 4
sbs
|
SQL 存储 监控
One SQL to Rule Them All: An Efficient and Syntactically Idiomatic Approach to Management of Streams and Tables 论文翻译
One SQL to Rule Them All: An Efficient and Syntactically Idiomatic Approach to Management of Streams and Tables[文件: One SQL to Rule Them All- An Efficient and Syntactically Idiomatic Approach to Manag
sbs
216 0
One SQL to Rule Them All: An Efficient and Syntactically Idiomatic Approach to Management of Streams and Tables 论文翻译
|
SQL 存储 算法
《Optimization of Common Table Expressions in MPP Database Systems》论文导读
Optimization of Common Table Expressions in MPP Database Systems
《Optimization of Common Table Expressions in MPP Database Systems》论文导读
|
存储 缓存 算法
|
SQL 监控 算法
Adaptive Execution of Compiled Queries 论文解读
本篇是TUM的内存数据库HyPer针对compile-based执行框架的改进。其中涉及到HyPer的动态编译和并行执行框架 动态编译文章的结尾提到了编译执行系统存在的2个问题,其中之一就是:不可控的编译时间。
510 0
Adaptive Execution of Compiled Queries 论文解读
|
SQL 算法 关系型数据库
Optimizing Queries over Partitioned Tables in MPP Systems
随着互联网数据的爆炸性增长,传统数据库系统在单表数据容量方面承受了越来越大的压力。以前公司内部的数据库,存放的主要是来自公司业务或内部管理系统的信息,中小型公司甚至一个MySQL实例就搞定了。但现在数据源不仅更丰富,数据量也在指数级增长,从业务的角度,基于hash/range的分区表变得越来越有吸引力。
265 0
Optimizing Queries over Partitioned Tables in MPP Systems

热门文章

最新文章

下一篇
开通oss服务