备案控制台

开发者社区人工智能文章正文

solr中文分词器

2017-11-22 1230

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1、mmseg4j

把jar包放到webapp\WEB-INF\lib目录下

schema加入

<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
    </analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
    </analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />
    </analyzer>
</fieldType>

tokenizer 的参数：

dicPath 参数－设置自定义的扩展词库，支持相对路径(相对于 solr_home).
mode 参数－分词模式。

本文转自 yntmdr 51CTO博客，原文链接：http://blog.51cto.com/yntmdr/1728616，如需转载请自行联系原作者

文章标签：

Java

自然语言处理

余二五

目录

相关文章

go-Jack

|

自然语言处理 Java 索引

Lucene&&Solr——分析器（Analyzer）

Lucene&&Solr——分析器（Analyzer）

go-Jack

78 0 0

Lucene&&Solr——分析器（Analyzer）

wyn-365

|

自然语言处理算法 Java

【Solr】之中文分词及IK库的安装使用-4

【Solr】之中文分词及IK库的安装使用-4

wyn-365

229 0 0

【Solr】之中文分词及IK库的安装使用-4

科技小能手

|

Web App开发新零售自然语言处理

（solr系列:三）如何在solr中添加ik分词器

科技小能手

1766 0 1

大数据资讯

|

自然语言处理 Java Maven

HanLP中文分词Lucene插件

基于HanLP，支持包括Solr（7.x）在内的任何基于Lucene（7.x）的系统。

大数据资讯

2008 0 0

大数据资讯

|

自然语言处理 Java 索引

全文检索Solr集成HanLP中文分词

以前发布过HanLP的Lucene插件，后来很多人跟我说其实Solr更流行（反正我是觉得既然Solr是Lucene的子项目，那么稍微改改配置就能支持Solr），于是就抽空做了个Solr插件出来，开源在Github上，欢迎改进。

大数据资讯

3372 0 0

mcy247

全文检索~solr的使用

mcy247

1489 0 0

技术小牛人

|

应用服务中间件自然语言处理

Solr4.7.1中配置中文分词器

技术小牛人

1325 0 0

技术小胖子

|

应用服务中间件

solr中文分词器IK-analyzer安装

技术小胖子

2045 0 0

技术小胖子

|

自然语言处理应用服务中间件

solr的IK分词搭建

技术小胖子

921 0 0

聂晨

|

自然语言处理 Java 数据格式

solr6.6初探之分词篇

关于solr6.6搭建与配置可以参考 solr6.6初探之配置篇在这里我们探讨一下分词的配置一.关于分词 1.分词是指将一个中文词语拆成若干个词，提供搜索引擎进行查找，比如说：北京大学是一个词那么进行拆分可以得到：北京与大学，甚至北京大学整个词也是一个语义 2.

聂晨

1241 0 0

热门文章

最新文章

Flutter之禅内存优化篇

《Cadence 16.6电路设计与仿真从入门到精通》——2.4 Design Entry CIS原理图图形界面　

记一次对网络抖动经典案例的分析

国外成人网站xHamster大量用户信息黑市变卖，部分账号涉及英美政府官员

用户密码以BCrypt加密的方式来防范被破解

带你理清CPU，cache和存储器之间的逻辑运作

Git设置代理服务器

【DSW Gallery】PAI-DSW开通及授权

吐血整理：机器学习的30个基本概念，都在这里了（手绘图解）

MOSS站点的迁移(备份还原)

设计模式之 5 大创建型模式，万字长文深剖，近 30 张图解！

《C++新特性：为多线程数据竞争检测与预防保驾护航》

Kotlin - 区间与数组

Kotlin - 参数与异常

Kotlin - 运算符与中缀表达式

Kotlin - 函数与Lambda表达式

Kotlin - 分支与循环

天气预报1天-中国气象局-地址查询版免费API接口教程

《C++智能合约与区块链底层交互全解析：构建坚实的去中心化应用桥梁》

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云OSS设置跨域访问