【原创】Lucene vs Solr

简介:

Lucene vs Solr  

原文地址:这里 。

许多新接触 Lucene 和 Solr 的朋友会问这样的问题:我应该使用 Lucene 和 Solr 中的哪一个?  
其实答案很简单:如果你是像上面那样问自己的,那么 99% 的情况下,你需要使用的是 Solr 。  

将 Solr 和 Lucene 之间的关系进行概念化类比,可以想象一下汽车和其内部的引擎。你无法直接驾驶引擎,但是你可以驾驶车。同样的道理,Lucene 是一种程序库,你无法直接跑起来,而 Solr 是一种完整应用,可以拿来就用。  

什么是 Solr ?  

Apache Solr 是一种 web 应用,构建于 Lucene 之上,并实现了很多其他功能。  
其添加了如下功能:  
  • XML/HTTP and JSON APIs
  • Hit highlighting(高亮命中内容)
  • Faceted Search and Filtering分面搜索和过滤
  • Geospatial Search (地理空间搜索
  • Fast Incremental Updates and Index Replication(快读增量更新和索引复制)
  • Caching
  • Replication
  • Web administration interface etc
与 Lucene 不同的是,Solr 是一种 web 应用(WAR),可以部署在任意一种 servlet 容器中,例如 Jetty, Tomcat, Resin 等。  
Solr 可以被经由非程序人员安装和使用,而 Lucene 却不行。  

支持情况如何?  
Solr 社区非常活跃,能够提供大量帮助信息。  

Solr 的索引能被 Lucene 读取使用么?反过来可以么?  
由于 Solr 底层使用的是 Lucene ,所以 Solr 索引和 Lucene 索引是相同的东西。  
从技术上讲,其实不存在 Solr 索引这样一个东西,Solr 示例只会创建 Lucene 索引。  

那么我应该在什么情况下使用 Lucene ?  
例如,如果你需要嵌入搜索功能到桌面应用中,那么 Lucene 将是非常合适的选择。  
在你需要针对底层 Lucene API 进行高度定制化控制,直接使用 Solr 会造成一些困扰,因为其已经在 Lucene 之上提供了额外的间接层。  

参考:  
  1. Hit-Highlighting in Full-Text Search
  2. 分面搜索
  3. 地理位置搜索

========  

以下内容来自:   这里    

      首先 Solr 是基于 Lucene 做的,Lucene 是一套信息检索工具包,但并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能,因此在使用 Lucene 时你仍需要关注搜索引擎系统,例如数据获取、解析、分词等方面的东西。  
      而 Solr 的目标是打造一款企业级的搜索引擎系统,因此它更接近于我们认识的搜索引擎系统,它是一个搜索引擎服务,通过各种 API 可以让你的应用使用搜索服务,而不需要将搜索逻辑耦合在应用中。而且 Solr 可以根据配置文件定义数据解析的方式,更像是一个搜索框架,它也支持主从、热换库等操作。还添加了飘红、facet 等搜索引擎常见功能的支持。  
      因而,Lucene 在使用上更加灵活,但是你需要自己处理搜素引擎系统架构,以及其他附加功能的实现。而 Solr 帮你做了更多,但是属于一种高层的框架,Lucene 很多新特性不能及时向上透传,所以有时候可能发现需要一个功能,Lucene 是支持的,但是 Solr 上已经看不到相关接口。  

      Lucene 更像是一个 SDK 。有完整的 API 族以及对应的实现。你可以利用这些在自己的应用里实现高级查询(基于倒排索引技术的),Lucene 对单机或者桌面应用很实用很方便。   但是 Lucene,需要开发者自己维护索引文件,在多机环境中备份同步索引文件很是麻烦。于是就有了 Solr 。   
      而 Solr 是一个有 HTTP 接口的基于 Lucene 的查询服务器,封装了很多 Lucene 细节,自己的应用可以直接利用诸如 .../solr?q=abc 这样的 HTTP GET/POST 请求去查询,维护修改索引。  
      给个比方就是,Lucene 是给你一堆包,让你自己从底层构建一个数据库。而 Solr 是一个实现好的数据库程序,安装后就可以直接用了。  
目录
相关文章
|
关系型数据库 MySQL 数据库
为什么要使用 Lucene|学习笔记
快速学习为什么要使用 Lucene
139 0
为什么要使用 Lucene|学习笔记
|
分布式计算 算法 Hadoop
什么是 lucene|学习笔记
快速学习 什么是 lucene
74 0
什么是 lucene|学习笔记
|
存储 SQL 编解码
Solr-lucene 使用案例大全
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文sole lucene的使用案例汇总。
210 0
|
自然语言处理 索引
Lucene&solr 4 实践(3)
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本部分主要是针对FSA FST做前期知识储备和基本概念扫盲。FST是lucene4 solr4 的索引和查询的核心! 下面的内容来自多个出去,出去就不一一列举。
96 0
Lucene&solr 4 实践(3)
|
算法 Java Maven
Lucene&solr 4 实践(4)
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本部分主要分析FST,快乐理解lucene fst包的源码细节和来龙去脉。
138 0
|
编解码 缓存 自然语言处理
Lucene&Solr 4 实践(2)
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。在第一部分,还不完善基础上,进入第二部分吧。结合源码来认识lucene! 重点是:从需求到方案到实践编码到结果、从原理到实现、从结构到细节、从总体认识到西部深入。
91 0
|
自然语言处理 算法 Apache
Lucene&solr 4 实践(5)
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。这部分先通透FST的原理和构造方法,方便理解lucene FST、Builder两个核心对象,从而彻底看清基于图的lucene4索引、查询的发展脉络。至于读懂后有神马用,自个琢磨啊! 看懂估计要死伤不少脑细胞哦!
211 0
|
自然语言处理 算法 架构师
Lucene&solr 4 实践(8)
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。Lucene 5 有哪些点对大数据倒排索引和检索有优势 1.索引懒加载lazy加载,意味着按时间段或者其他分割的数据可以按需加载 2.FST词典结构以及基于图的索引、查询,使得内存消耗更低 3.异步合并,使得增量索引合并时的“索引整理”开销或者对查询影响更小 4.commitpoint 视图下reader自动更新,使得大规模数据的虚拟分组、全量切换更加方便。
130 0
|
自然语言处理 Java API
Lucene&solr 4 实践(1)
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。Solr&Lucene 4.0 好,很好,很强大。对于从lucene2.0 solr0.9 就关注,一直过来的人来讲, 4.X序列除了的架构、风格、API改变了很多很多,更重要的是业务的优化口子更多了,专业知识要求更高。整个架子的容量、包容性、以及适应信息检索的科研,直接上来demo运行easy、深入会很难。需要整理了解的知识点太多了。
91 0
|
索引
lucene学习笔记
lucene学习笔记
132 0