solr中文分词器

简介:

1、mmseg4j


把jar包放到webapp\WEB-INF\lib目录下


schema加入

<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
    </analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
    </analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />
    </analyzer>
</fieldType>



tokenizer 的参数:

  • dicPath 参数 - 设置自定义的扩展词库,支持相对路径(相对于 solr_home).

  • mode 参数 - 分词模式。










本文转自 yntmdr 51CTO博客,原文链接:http://blog.51cto.com/yntmdr/1728616,如需转载请自行联系原作者
目录
相关文章
|
自然语言处理 Java 索引
Lucene&&Solr——分析器(Analyzer)
Lucene&&Solr——分析器(Analyzer)
78 0
Lucene&&Solr——分析器(Analyzer)
|
自然语言处理 算法 Java
【Solr】之中文分词及IK库的安装使用-4
【Solr】之中文分词及IK库的安装使用-4
229 0
【Solr】之中文分词及IK库的安装使用-4
|
自然语言处理 Java Maven
HanLP中文分词Lucene插件
基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。
2008 0
|
自然语言处理 Java 索引
全文检索Solr集成HanLP中文分词
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。
3372 0
|
应用服务中间件 自然语言处理
|
自然语言处理 应用服务中间件
|
自然语言处理 Java 数据格式
solr6.6初探之分词篇
关于solr6.6搭建与配置可以参考 solr6.6初探之配置篇 在这里我们探讨一下分词的配置   一.关于分词 1.分词是指将一个中文词语拆成若干个词,提供搜索引擎进行查找,比如说:北京大学 是一个词那么进行拆分可以得到:北京与大学,甚至北京大学整个词也是一个语义 2.
1241 0