自定义词库|学习笔记

简介: 快速学习自定义词库。

开发者学堂课程【ElasticSearch 最新快速入门教程自定义词库】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/642/detail/10668


自定义词库

 

内容简介:

1. 中文分词Ik分词器,自定义词库

2. ES Rest_通过 REST 概述

3.ES REST 通过 REST 请求 URI 以及 ES Rest 通过 REST 的一个请求体

 

自定义词库,在 plugins config 目录下有一个 page 文件叫作:IKAnalyzer.cuff.xml

可以确认一下位置:

image.png

cd~/es/plugins 下面有一个 analysis-ik,这里有个 cd config,config 目录下就一个  IKAnalyzer.cuff.xml

image.png

IK Analyzer 这里面配置自定义的一个扩展,用户也可以在这里面配置自己的一个扩展或者停止置顶,可以在里面配置一个远程的扩展置顶前置的一个词典

exstopword.dic,可以修改一下这里可以一个指定,

比如 custom/mydict.dic 或者 single_word_low_freq.exit 

exit 可以指定一下打开 custom 文件夹然后编辑文件“不明觉厉”,然后再重新启动 es,重新打开文档下列搜索可以查询结果

演示一下,查询一下“不明觉厉”

下面也尝试一下:

su-l root 123然后下面 cd/opt ,home/jerry/es/plugins

cd analysis-ik/

进来之后 cd config,然后后面有一个 custom/mydict.dic.

这里面有个 customer/mydic.dic

dicry/es/plugins

cd anylysis-ikIKAnalyzer.cig.xml,ik

扩展或者扩展自定义的一个字典,可以尝试一下 :

这里面是一个 custom 下面有个 mydict.dic ,完了之后编辑一下,比如说查询一下“不明觉厉”能不能查询出来,没有改之前不明觉厉”能不能去查询出来。

比如说: 

analyzer 后面写一下 ik smart “text” 不明觉厉,提交请求,并没有识别出“不明觉厉”是个一个词

image.png

有“如痴如醉”再往下看一次识别方法

可以mkdir 有个 customer ,

cd ,mv/customer/customer

然后在这个 customer,

cd customer

vim mydic.dic  

不明觉厉

完了之后进行重启:

先 pf,jps 一下

customer 跨节点考核一下,scp-r 先停止把 es 继续停止 pkill-f 有一个 Elasticsearch 然后查询一下,jps,跨节点拷贝然后查询一下,jps

跨节点拷贝

scp-r 有一个 config/ root 把它拷贝到 janson02opt home/jerry/es/plugins/

后面有个 analysis-ik再拷贝到03上,

这里看下 cd/root/jerry,home/jerry/es/plugins cd ik ,cd config

加一个customer

有了之后再次 su-l jerry,然后 es/bin/elasticsearch -d 现在 jps  一下,进来之后再慢慢尝试一下,看看不明觉厉现在能不能查询得到请求可以刷新一下点击F5刷新,看一下在 jps 查询一下,显示存在,继续F5一下,红色的,黄色的

image.png

完全启动慢慢的起来了,再查询一下“不明觉厉”,显示请求,请求中…,有一个“不明”,“觉”,“厉”,“天”,“团”,“昨”,“在”,“昨在”,“露天”,“3人”,“演唱会”,“让”,“听得”,“如痴如醉”比如说这里有个 IK smart 下面可以选一种方案叫做  ik_max_word,出现的是“如痴如醉”,下面自定义的“不明觉厉”就进去了,

点击提交请求就进去了,定义的时候要注意把这个参数根据官方的说明需要一定的配置,自己定义汇报出来扩展的词典,

需要在 opt,es 下面有个 config,config 下面 analysis-ik 然后在这里面还需要配一下 customer mydic

mydiction,说明需要配置一下,然后在 IK,除了这里面要定义下

还有 plug-in

这两点需要注意后就可以了,此外还需要把 IK elastic 设计服务停了,停了之后定义完成的,这里暂时定义了一个自己的

如果使用了远程的方式 location remote_ext_stopwords ,其中 location 是一个 url,比如 http://yoursite.com/getCustomDict,该请求只能满足以下两点即可完成分词热更新。

这里是IK自定义的一个中文分词插件,中文分词词库。

需要注意

两个地方都需要配置,一个是 jerry,一个是 plugins 这个目录下,此外在外面 config 这个目录下,也得配置,customers 下也得配置才有用。

就会有这个效果,就是“不明觉厉”提交申请,自定义词典的内容综上所

相关文章
|
Linux Shell Windows
Linux如何检查文件夹的大小?
在Linux中查看文件夹大小,可使用`du`(如`du -sh *`)、`df`(如`df -h /home`)查看磁盘使用情况,`ncdu`提供交互式浏览,`ls -lh`显示当前目录文件大小,`find`与`du`结合找大文件夹,`tree --du -h`展示目录结构及大小,或用`awk`与`du`组合按大小排序。不同场景下,这些命令各有优势。
800 1
Linux如何检查文件夹的大小?
|
存储 人工智能 OLAP
LangChain+通义千问+AnalyticDB向量引擎保姆级教程
本文以构建AIGC落地应用ChatBot和构建AI Agent为例,从代码级别详细分享AI框架LangChain、阿里云通义大模型和AnalyticDB向量引擎的开发经验和最佳实践,给大家快速落地AIGC应用提供参考。
131628 94
|
JSON 网络协议 Java
OkHttp3发送http请求在Java中的使用方法
记录总结一下Http的get请求和post请求的使用方法和问题解决
1513 0
|
数据采集 XML API
淘宝商品评论数据采集教程丨淘宝商品评论数据接口(Taobao.item_review)
**摘要:** 本教程指导如何使用淘宝(Taobao.item_review)接口采集商品评论。步骤包括注册开发者账号,创建应用获取API密钥,发送请求(如num_iid, page, size参数),解析JSON或XML返回数据,并遵循使用规则与安全注意事项。接口允许获取商品评论列表,含评论内容、评论者信息等,适用于数据分析和市场研究。务必保护API密钥并遵守使用政策。
1054 1
|
5月前
|
物联网
(手把手)在华为云、阿里云搭建自己的物联网MQTT消息服务器,免费IOT平台
本文介绍如何在阿里云搭建自己的物联网MQTT消息服务器,并使用 “MQTT客户端调试工具”模拟MQTT设备,接入平台进行消息收发。
2038 42
|
7月前
|
安全 API 算法框架/工具
大模型文件Docker镜像化部署技术详解
大模型文件Docker镜像化部署技术详解
957 2
|
人工智能 自然语言处理 前端开发
SpringBoot + 通义千问 + 自定义React组件:支持EventStream数据解析的技术实践
【10月更文挑战第7天】在现代Web开发中,集成多种技术栈以实现复杂的功能需求已成为常态。本文将详细介绍如何使用SpringBoot作为后端框架,结合阿里巴巴的通义千问(一个强大的自然语言处理服务),并通过自定义React组件来支持服务器发送事件(SSE, Server-Sent Events)的EventStream数据解析。这一组合不仅能够实现高效的实时通信,还能利用AI技术提升用户体验。
806 2
|
SQL 数据库
SQL使用视图的优缺点
SQL使用视图的优缺点
371 0
|
关系型数据库 MySQL Serverless
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
|
11月前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
164 1