Apache Lucene 4.0今日发布

简介: 经过了三年的开发努力,Apache Lucene 4.0终于发布了。 Apache Lucene是一个高性能,全功能的文本搜索引擎库,完全用Java编写的。这是一个技术适用于几乎任何需要全文搜索,特别是跨平台的应用程序。

经过了三年的开发努力,Apache Lucene 4.0终于发布了。


Apache Lucene是一个高性能,全功能的文本搜索引擎库,完全用Java编写的。这是一个技术适用于几乎
任何需要全文搜索,特别是跨平台的应用程序。

Apache Lucene 4.0版的亮点:

1. 索引格式支持条目、邮件列表、数据库存储的字段、条目矢量等格式,通过编码器API实现了可插拔。可以选择或自定义索引格式。

2. 矢量空间模型的相似度解耦(TF-IDF)。有附加模型(如BM25)、随机偏离、语言模型、基于信息的模型等。

3. IndexWriter支持并行写磁盘,适用于应用程序使用多线程建立索引的场景。

4. 每个文档的归一化因此不再局限于单个字节。

5. 增加了新的索引统计,包括条目或字段的令牌数等。

6. 新的默认字典索引(BlockTree)。

7. 索引的条目不再受UTF-16字符的限制。默认情况下,文本条目使用UTF-8编码。

8. 在搜索期间使用过滤器能获得更好的性能。

9. 替换了大量的编码器和组件。

10. 条目偏移量是可选的,被编码到邮件列表并可按位置检索。

11. 新的自动查询,返回所有文档包含的条目,条目由有限状态机自动提供。

12. 模糊查询的性能比上一版提高了100~200倍。

13. 新的拼写检查器。

14. 提供了各种内存数据结构,比如字典条目和字段缓存等。

 还有很多新特性,有兴趣的话,下载研究吧!
目录
相关文章
|
存储 编解码 自然语言处理
Apache Lucene 4 ----Sigir2012 论文译文
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里
384 0
Apache Lucene 4 ----Sigir2012 论文译文
|
Apache 索引 Java
Apache Lucene 4.0今日发布
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/8066796 经过了三年的开发努力,Apache Lucene 4.0终于发布了。
772 0
|
10天前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
286 33
The Past, Present and Future of Apache Flink

推荐镜像

更多