ik分词器配置自定义词典+追加写入文件

简介: ik分词器配置自定义词典+追加写入文件

首先找到
elasticsearch-7.9.2\plugins\elasticsearch-analysis-ik-7.9.2\config目录
在这里插入图片描述
打开IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict">new_word.dic;GBT5271.1-2000信息技术基本术语.dic;GBT22263.1-2008 物流公共信息平台应用开发指南 第1部分:基础术语.dic;TJDW114-2008 中国列车运行控制系统CTCS名词术语(V1-0).dic;术语表(中英).dic;铁路车站及枢纽术语.dic;铁路旅客运输组织术语.dic;铁路名词术语全集.dic;业务术语表.dic</entry>
     <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords"></entry>
    <!--用户可以在这里配置远程扩展字典 -->
    <!-- <entry key="remote_ext_dict">words_location</entry> -->
    <!--用户可以在这里配置远程扩展停止词字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

配置多个词典使用分号分隔
字典格式如图
在这里插入图片描述
字典格式如图 windows(CRLF) UTF-8
这里分享一个程序中全文搜索未查询出输入后,将搜索关键字添加到词典中 自动追加词典的代码

public static void main(String[] args) {
        writeFile("C:\\Users\\Herbs\\Desktop\\"+"dic.dic","我爱"+"\n");
    }


    /**
     * 写入文件,如果文件存在,追加写入
     */
    public static void writeFile(String pathname, String content) {
        try {
            File writeName = new File(pathname);
            try (FileWriter writer = new FileWriter(writeName, true);
                 BufferedWriter out = new BufferedWriter(writer)
            ) {
                out.write(content);
                out.flush();
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
相关文章
|
4月前
|
自然语言处理 搜索推荐
在Elasticsearch 7.9.2中安装IK分词器并进行自定义词典配置
在Elasticsearch 7.9.2中安装IK分词器并进行自定义词典配置
237 1
|
4月前
|
自然语言处理 数据可视化 Linux
ElasticSearch安装ik分词器_使用_自定义词典
ElasticSearch安装ik分词器_使用_自定义词典
44 1
|
机器学习/深度学习 存储 自然语言处理
Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理
Jieba(结巴)是一个中文分词第三方库,它可以帮助我们将一段中文文本分成一个个独立的词语。Jieba具有以下特点: 简单易用:Jieba提供了简洁的API接口,易于使用和扩展。可以快速地实现中文分词功能。 高效准确:Jieba采用了基于前缀词典和动态规划算法的分词方法,能够高效准确地处理各种中文文本。 支持多种分词模式:Jieba提供了三种分词模式:精确模式、全模式和搜索引擎模式,可以根据不同的应用场景选择合适的模式。
Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理
|
自然语言处理 Shell 索引
【ES系列七】——ik自定义分词词库
在利用ik分词的过程中,当ik的分词规则不满足我们的需求了,这个时候就可以利用ik的自定义词库进行筛选,举个例子:当我要将“我是中国人,我想测试一下”这句话通过分词,将“我想测试一下”分为一个词的时候,就需要利用ik的自定义词库进行灌入指定的词。
【ES系列七】——ik自定义分词词库
|
自然语言处理 索引
白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库
白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库
372 0
|
自然语言处理 算法 应用服务中间件
Elasticsearch安装IK分词器、配置自定义分词词库
Elasticsearch安装IK分词器、配置自定义分词词库
465 0
|
自然语言处理 索引
elasticsearch hanlp插件自定义分词配置(停用词)
简述elasticsearch hanlp插件自定义分词配置,涉及停用词,专有名词
elasticsearch hanlp插件自定义分词配置(停用词)
|
自然语言处理
IK分词器自定义词汇
IK分词器自定义词汇
|
索引
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(三)
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(三)
127 0
|
索引
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(七)
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(七)