solr中文分词器

简介:

1、mmseg4j


把jar包放到webapp\WEB-INF\lib目录下


schema加入

<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
    </analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
    </analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />
    </analyzer>
</fieldType>



tokenizer 的参数:

  • dicPath 参数 - 设置自定义的扩展词库,支持相对路径(相对于 solr_home).

  • mode 参数 - 分词模式。










本文转自 yntmdr 51CTO博客,原文链接:http://blog.51cto.com/yntmdr/1728616,如需转载请自行联系原作者
目录
相关文章
|
自然语言处理 算法 Java
【Solr】之中文分词及IK库的安装使用-4
【Solr】之中文分词及IK库的安装使用-4
160 0
【Solr】之中文分词及IK库的安装使用-4
|
自然语言处理 API 开发工具
elasticsearch7.13.4 ik中文分词器安装
elasticsearch7.13.4 ik中文分词器安装
289 0
|
自然语言处理 Java Maven
HanLP中文分词Lucene插件
基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。
1967 0
|
自然语言处理 Java 索引
全文检索Solr集成HanLP中文分词
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。
3325 0
|
应用服务中间件 自然语言处理
|
自然语言处理 Apache 数据格式
|
自然语言处理 应用服务中间件