经过了三年的开发努力,Apache Lucene 4.0终于发布了。
Apache Lucene是一个高性能,全功能的文本搜索引擎库,完全用Java编写的。这是一个技术适用于几乎
任何需要全文搜索,特别是跨平台的应用程序。
Apache Lucene 4.0版的亮点:
1. 索引格式支持条目、邮件列表、数据库存储的字段、条目矢量等格式,通过编码器API实现了可插拔。可以选择或自定义索引格式。
2. 矢量空间模型的相似度解耦(TF-IDF)。有附加模型(如BM25)、随机偏离、语言模型、基于信息的模型等。
3. IndexWriter支持并行写磁盘,适用于应用程序使用多线程建立索引的场景。
4. 每个文档的归一化因此不再局限于单个字节。
5. 增加了新的索引统计,包括条目或字段的令牌数等。
6. 新的默认字典索引(BlockTree)。
7. 索引的条目不再受UTF-16字符的限制。默认情况下,文本条目使用UTF-8编码。
8. 在搜索期间使用过滤器能获得更好的性能。
9. 替换了大量的编码器和组件。
10. 条目偏移量是可选的,被编码到邮件列表并可按位置检索。
11. 新的自动查询,返回所有文档包含的条目,条目由有限状态机自动提供。
12. 模糊查询的性能比上一版提高了100~200倍。
13. 新的拼写检查器。
14. 提供了各种内存数据结构,比如字典条目和字段缓存等。
还有很多新特性,有兴趣的话,下载研究吧!