剖析solr实用性

简介:

我的使用经历

使用solr3.6版本,配合自己用lucene3.6建立的索引,搭建了一个搜索服务,前台通过http访问solr服务,获取由solr排序后的结果集。环境是linux ubuntu,servlet容器是tomcat。这个搜索服务是提供给php开发人员使用的。根据我现在对solr的理解和使用感受,我想说说solr这玩意儿的实用性。


我对solr的理解

solr包装了lucene之后,将整个搜索项目放入了Servlet容器里(jetty或者tomcat),变成一个web service。与lucene不同的是,solr把索引的定制,建立,更改,查询全部放入自己的配置文件里。从scheme.xml和solrconfig.xml两个配置文件,我认为就看到了solr可以做到的一切

具体说,scheme.xml里主要可以配置:分词工具,每个field类型采用的solr类,索引结构(field,STORE,ANALYZE),默认搜索域,默认与或规则。作为一名使用过lucene的开发者,在看到官方一些solr构建索引的方式之后,我果断放弃了solr来建索引。solr多种方式建立索引的方式,是为了适合不同的场景和使用需求,无论是读xml,csv文件数据,和数据库交互读数据还是http方式的json更新索引,都让我觉得不底层。当然,这是solr包装了lucene后的结果。我觉得这种形式比较方便做工具的整合,比如你用Nutch或者别的工具爬数据,然后分析整理后变成一个http url或者存成了csv文件,紧接着通过Solr自动去读取建立索引,最后再用solr这个web服务提供搜索服务。而至少对于我来说,我想做的是我自己更细致地来处理数据的建索引过程。借着solr与lucene的兼容性,我自己用lucene建索引并放入solr的路径里提供搜索。

再看solrconfig.xml,它可以配置:索引文件路径,solr的三种缓存(filterCache, queryResultCache, documentCache),索引更新及参数配置,索引查询时候的各种参数(默认字段,是否高亮,过滤字段,字段权重,打分公式等)。


的确,通过solr的这两个配置,一个搜索服务很可以简单搭建起来,但是我定义solr只是一个数据库层之上的东西,solr之上的代码如果仅仅通过solr的url传参方式得到搜索结果,只能是得到一个很通用的搜索结果集,无法个性化定制搜索。如果要更针对个性化的需求,在solr和前台之间还需要一层中间件,这层中间件应该需要做这些事:

1. 接受到前台传来的搜索词,对词进行个性化处理和赋权

2. 对搜索请求分发到不同索引文件和字段进行搜索(这里不是指分布式分发,只是逻辑上分发到不同索引块)

3. 从solr获得结果之后,再进行一些局部的排名和优化,甚至可以再过滤处理

我认为只要你自己可以写servlet,完全可以用lucene和servlet搭建一个比solr更具实用性和个性的搜索服务,而不像solr那么通用和高层(针对api的底层而言)。solrj提供了solr的java api,可以使用solr的api来类似lucene一样进行各种query的查询和处理,但是如果没有solrj呢?比如php,就只能通过solr的url做一些参数的拼凑,获得返回结果,实在有点太通用了。或者说,solr根本不是一个搜索引擎服务,否则是黑了“搜索引擎”这个词。它只是数据库之上的一层数据索引层,其他的东西你自己继续添加吧

其实就我看到的网上的一些solr资料,无非是一些solr安装啊,配置啊,结合数据库,结合nutch搭建了一个服务啊之类的,总结就是都很通用,技术性都不强,不能成为搜索引擎。只是一个基于数据库数据的一个打分ranking处理而已。


总结

solr的确配置方便,通过配置可以解决大部分问题,但是这东西太通用了,为什么感觉是给非码农用的?为什么我使用过lucene之后,就不想用它建索引,而宁可自己再写一个工程来做建索引这件事情?solr只是一个能放入servlet容器的东西而已?对非java的语言,除了改solr源码,你还能怎样定制自己的搜索?

(以上问题的解决方案我将在博客里更新,在《Apache solr 3.1 cookbook》里有一些进阶的使用方法)


目录
相关文章
|
6月前
|
自然语言处理 搜索推荐 算法
基于Lucene的搜索引擎的设计与实现
基于Lucene的搜索引擎的设计与实现
50 0
|
机器学习/深度学习 缓存 搜索推荐
【搜索引擎】提高 Solr 性能
【搜索引擎】提高 Solr 性能
|
存储 缓存 搜索推荐
【搜索引擎】配置 Solr 以获得最佳性能
【搜索引擎】配置 Solr 以获得最佳性能
|
存储 缓存 分布式计算
「技术选型」Solr与ES难以抉择?且看第一回
「技术选型」Solr与ES难以抉择?且看第一回
|
JSON 监控 搜索推荐
【技术选型】Elasticsearch vs. Solr-选择您的开源搜索引擎
【技术选型】Elasticsearch vs. Solr-选择您的开源搜索引擎
|
机器学习/深度学习 分布式计算 自然语言处理
【搜索引擎选型】Solr vs. Elasticsearch:选择开源搜索引擎
【搜索引擎选型】Solr vs. Elasticsearch:选择开源搜索引擎
|
存储 自然语言处理 分布式计算
全文检索工具solr:第一章:理论知识
全文检索工具solr:第一章:理论知识
129 0
|
运维
Lucene solr 大规模应用实践一手经验
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文sole lucene的一些实践小经验。 之前是截图保存的,这里保留图片模式。
83 0
Lucene solr 大规模应用实践一手经验
|
存储 自然语言处理 分布式计算
Solr\Lucene优劣势分析
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。
299 0
|
分布式计算 Hadoop
Lucene/Solr 分布式与实时方案收集
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。
117 0