使用Solr构建企业级的全文检索(三)---------Schema定义

简介:

  上一篇文章介绍了Solr的管理界面,使用这个管理界面我们我们可以方便的了解现在Solr的运行情况,也可以查看目前的系统是如何配置的,你甚至可以通过它做一些测试和调试,但是也仅止于此,系统的配置你还必须通过各种各样的配置文件。要使Solr可以处理我们自己的文档,第一步要做的就是配置Schema。

Schema是Solr业务逻辑的核心,一个文档包含哪些字段,字段是否被索引,如何索引,如何被查询都在Schema中定义。我们可以在Solr的conf目录下找到schema.xml这个文件,这个文件中就是Schema的定义。需要注意的是一个Solr的实例只能有一个Schema。Schema的定义很像是数据库中的一张表,你在表里面定义字段,比如text字段,数据类型是nvarchar这样。不同的是,在数据库里面,你只能使用系统预设的字段类型来定义字段,而在Solr的schema中你不但可以定义字段,而且还可以定义自己的字段类型,并且定义字段类型往往是最重要的。

我们可以浏览一下这个schema文件,在<types>节点中的所以内容都是字段定义,这些字段类型一块一块的被定义,在每一块的上边有很详细的定义。对于每行一个定义这样的简单字段类型基本上是Solr的基本数据类型,一般来说你不需要去修改它,这些字段的omitNorms attribute都是true,也就是说他们不会被用来分析,只用来存储数据。如果想要更快的范围查询,请考虑使用t前缀的字段类型。我们来看看下面的一段字段定义的配置:

 

复制代码
      < fieldType  name ="text_general"  class ="solr.TextField"  positionIncrementGap ="100" >

      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        
-->
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>

    </fieldType>  

复制代码

需要分析的字段类型一般是这样的,name指定了字段类型的名称,就像是数据库的nvarchar这样的名字一样。class指明这个类型对应的是什么的java数据类型,在字段定义中你可以定义分析器,分析器有两种,索引分析器和查询分析器,对于每个字段类型,你只能指定一个查询分析器和一个索引分析器。分析用来对字段的内容进行分词,过滤,转换等等,我们可以看到在分析器的节点内定义了一系列的处理步骤,这些步骤是有序的。从分析器的类型也就可以直观的了解到,索引分析器用于建立索引时,查询索引器用于查询时。如果字段类型仅指定了一个分析器,并且没有指定类型,说明索引和查询都使用这个分析器。

   有了字段类型,我们就可以定义需要处理的文档的所具有的字段了。我们可以看到,在schema文件中本身已经定义了很多的字段,它们都位于<fields>节点内。这些字段是为例子数据文档准备的,如果你需要的处理文档足够简单并且本身是英文的,那么你甚至都不需要修改Schema文件,直接利用这些字段就可以了。当然只是偷懒的做法,如果用于练习是足够了,如果用于生产环境,还是把不需要的字段删掉吧。删除的时候注意,不要把dynamicField的内容删掉了,这些dynamicField是又特殊含义的,他们的名字都像name="*_i"一样有个"*_"的前缀。如果你不想在schema中定义这个字段又想存贮这个字段的值,那么在向Solr传地文档内容的时候,把字段名名为"_i"后缀,那么字段的值就会按<dynamicField name="*_i"  type="int"    indexed="true"  stored="true"/>定义的动态字段的属性来存储,同样的道理,查询也是一样的。在字段定义时,你可以指定几个attribute,那么当时是指字段的名字,type指定的是字段的类型,字段的类型当然指的就是前面定义的类型,这个类型决定了该字段的内容如何被索引和查询,indexed是个布尔值,指示该字段是否被索引,stored指示该字段的内容是否被存储,如果你的查询只是返回是否命中,并不返回字段的内容或者高亮内容中的某些部分的,可以将该属性的值设定为false,multiValued指示该字段是否存储多个值。

            defaultSearchField用来指定,如果查询时没有指定字段名称时查询哪个字段的索引值。

    solrQueryParser 指示如果查询中包含了两个term,并且没有指定逻辑运算符的时候我们默认用什么逻辑运算符,一般来说我们都会默认是OR。

    上边就Schema的定义了, 后边我写Solr处理中文文档的时候,会稍微详细的再介绍一下这个部分,如果你处理的只是英文文档的话,类型基本不用修改了,只用定义自己需要的字段就可以了。






本文转自纶巾客博客园博客,原文链接:http://www.cnblogs.com/guanjinke/archive/2011/12/12/2285364.html,如需转载请自行联系原作者
目录
相关文章
|
7天前
|
存储 自然语言处理 搜索推荐
Elasticsearch 8.10 同义词管理新篇章:引入同义词 API
Elasticsearch 8.10 同义词管理新篇章:引入同义词 API
13 0
|
2月前
|
存储 SQL 数据管理
阿里云数据库 SelectDB 内核 Apache Doris 如何基于自增列满足高效字典编码等典型场景需求|Deep Dive 系列
自增列的实现,使得 Apache Doris 可以在处理大规模时展示出更高的稳定性和可靠性。通过自增列,用户能够高效进行字典编码,显著提升了字符串精确去重以及查询的性能。使用自增列作为主键来存储明细数据,可以完美的解决明细数据更新的问题。同时,基于自增列,用户可以实现高效的分页机制,轻松应对深分页场景,有效过滤掉大量非必需数据,从而减轻数据库的负载压力,为用户带来了更加流畅和高效的数据处理体验。
|
9月前
|
JSON 关系型数据库 MySQL
MySQL全文搜索与JSON支持:高效检索与灵活数据处理
本文深入探讨了MySQL数据库中的全文搜索与JSON支持,通过详细的代码示例,阐述了全文搜索的原理、全文索引的创建,以及JSON数据类型的使用与操作。全文搜索在数据库中的重要性日益凸显,MySQL提供了全文索引来实现高效的文本数据检索,通过MATCH AGAINST语句,可以轻松地进行全文搜索操作。此外,MySQL的JSON支持为半结构化数据的存储和查询提供了灵活的解决方案,您可以存储JSON对象、数组等数据,并使用JSON函数来查询和修改数据。
444 0
|
7月前
|
索引
18Solr管理索引库
18Solr管理索引库
15 0
|
12月前
|
存储 SQL JSON
Good Idea, 利用MySQL JSON特性优化千万级文库表
记录一下sql调优中学到的东西,使用mysql的json列的存储方式,将一个200ms的查询减少到了20ms, 这是一个非常好的办法, 在以后的sql调优中, 不只是索引可以办到, 不妨试试json, 也许效果更好
787 0
|
存储 安全 前端开发
PostgreSQL 12 文档: 部分 VII. 内部
部分 VII. 内部 这一部分包含PostgreSQL开发者可能用到的各类信息。 目录
76 0
|
搜索推荐 算法 索引
基于Solr实现排序定制化参考
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文Solr实现排序定制化的实践参考。排序实现有N种形式,最低成本、最快响应时间是目标。 一份索引,支持N种排序策略并且在线互不干扰是要考虑的。每一种实现,处理的场景是不同的,不要千篇一律。020排序,从索引到效果,有不少坑,这篇文章没有细说,原因是有些内容不好公开。
262 0
|
SQL JSON 自然语言处理
ElasticSearch中DSL高级检索(Query)
ElasticSearch中DSL高级检索(Query) es分布式搜索引擎 作用:搜索 全文检索 ES官方提供了两中检索方式:一种是通过 URL 参数进行搜索,另一种是通过 DSL(Domain Specified Language) 进行搜索``。``官方更推荐使用第二种方式第二种方式是基于传递JSON作为请求体(request body)格式与ES进行交互,这种方式更强大,更简洁``。
198 0
ElasticSearch中DSL高级检索(Query)
|
22天前
|
存储 并行计算 关系型数据库
PolarDB 开源版通过pg_rational插件支持Stern-Brocot trees , 实现高效自定义顺序和调整顺序需求
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB 开源版通过pg_rational插件支持Stern-Bro...
43 0
|
存储 并行计算 Cloud Native
PolarDB 开源版通过pg_rational插件支持Stern-Brocot trees , 实现高效自定义顺序和调整顺序需求
PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍PolarDB 开源版通过pg_rational插件支持Stern-Brocot trees , 实现高效自定义顺序和调整顺序需求.
163 0