带你读《Elastic Stack 实战手册》之35:——3.4.2.17.4.Analyzers / Custom analyzers(9)

简介: 带你读《Elastic Stack 实战手册》之35:——3.4.2.17.4.Analyzers / Custom analyzers(9)


《Elastic Stack 实战手册》——三、产品能力——3.4.入门篇——3.4.2.Elasticsearch基础应用——3.4.2.17.Text analysis, settings 及 mappings——3.4.2.17.4.Analyzers / Custom analyzers(8) https://developer.aliyun.com/article/1229767


配置项

 

stopwords 配置停用词,可以根据内置语言设置如 english 或者定义停用词数组,默认不启用 _english_。

 

stopwords_path 配置停用词的文件路径,需要放在 Elasticsearch 目录中的 config 目录中。

 

ignore_case 单词是否忽略大小写,默认 false。

 

Synonym token filter

 

synonym 过滤器用于指定文本同义词映射关系,比英文,缩写,俗称,旧称等。目的是为了提高检索时具有相同含义的文档可以都匹配到。比如想网购一台 switch 游戏机,我们在商城中搜索的时候与之关联的可以是[ 任天堂,ns主机,游戏掌机,红蓝机 ]等。当我输入红蓝机,商城中也仍然可以匹配到 switch 游戏机的信息。


GET _analyze
{
  "tokenizer": "standard",
  "filter": [
    {
      "type": "synonym",
      "synonyms": [
        "ns主机,游戏掌机,红蓝机,任天堂,switch => switch"
      ]
    }
  ],
  "text": [
    "红蓝机"
  ]
}
#Response
[ switch ]

配置项

 

synonyms 提供同义词映射列表,每一个同义词映射格式依照 “同义词1[,同义词2]... => 目标词” 定义。

 

synonyms_path 指定同义词映射文件目录地址。文件需要放在 Elasticsearch 目录中的

config 目录中,以 UTF-8 格式存储,每行代表一个同义词映射。

 

lenitent 是否忽略映射过程中发生异常,默认为 false。

 

Trim token filter

 

trim 过滤器对单词两端进行去空格。


GET /_analyze
{
  "tokenizer": "standard",
  "filter": [
    "trim"
  ],
  "text": " Hello "
}
#Response
[ Hello ]

Reverse token filter

 

reverse 过滤器将单词进行反向输出,通常用于后缀匹配,如按照扩展名搜索或尾号匹配。


GET /_analyze
{
  "tokenizer": "standard",
  "filter": [
    "reverse"
  ],
  "text": " Hello "
}
#Response
[ olleH ]

Truncate token filter

 

truncate 过滤器对单词超出长度部分进行截断,默认长度为10。


GET /_analyze
{
  "tokenizer": "standard",
  "filter": [
    {
      "type": "truncate",
      "length": 4
    }
  ],
  "text": " Mathematics is hard to know"
}
#Response
[ Math, is, hard, to, know ]


配置项

 

length 设置单词最大长度,超出部分将会被截断,默认长度为10。

 

Unique token filter

 

unique 过滤器删除重复的单词,数组中每个单词保证唯一。


GET /_analyze
{
  "tokenizer": "standard",
  "filter": [
    {
      "type": "unique"
    }
  ],
  "text": " A good cook  could cook cookies?"
  }
#Response
[ A, good, cook, could, cookies ]



《Elastic Stack 实战手册》——三、产品能力——3.4.入门篇——3.4.2.Elasticsearch基础应用——3.4.2.17.Text analysis, settings 及 mappings——3.4.2.17.4.Analyzers / Custom analyzers(10) https://developer.aliyun.com/article/1229763

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
搜索推荐 数据库 C语言
C语言实现冒泡排序(超详细)
C语言实现冒泡排序(超详细)
844 1
|
3月前
|
缓存 关系型数据库 数据库
别再乱用了!幂等处理与分布式锁,90% 开发者都踩过的坑与正确落地姿势
本文深度剖析分布式系统中幂等处理与分布式锁的本质区别:幂等解决“时间维度重复执行”问题,保证结果唯一;分布式锁解决“空间维度并发竞争”问题,保障资源互斥。厘清常见误区,结合四大类典型场景(仅需幂等、仅需锁、必须联用、天然幂等),给出精准选型指南与可落地的代码实现,助你规避资损、超卖等线上故障。
281 1
|
机器人 智能硬件
基于STM32的电机控制系统设计与实现
基于STM32的电机控制系统设计与实现
894 1
|
2月前
|
算法 API
翻拍识别-翻拍检测-图片翻拍识别-图像翻拍检测-图片造假检测API接口介绍
翻拍识别API可精准识别手机翻拍的货架、促销等零售场景图片,有效防范造假。针对模糊、摩尔纹、边框等优化,准确率达99%,支持Base64、文件、URL三种输入方式,返回翻拍/原图分类及置信度。
229 9
|
2月前
|
存储 安全 数据挖掘
Python 面向对象编程(OOP)零基础全教程
本教程来源:http://dnuhf.cn深入浅出讲解Python面向对象编程(OOP):从类与对象的本质区别(模板vs实例),到属性、方法、构造函数`__init__`;涵盖封装(私有属性)、继承(代码复用)、多态(统一接口不同实现)三大特性,以及类方法、静态方法等核心概念,配大量生活化示例和可运行代码,零基础也能轻松掌握。
|
机器学习/深度学习 存储 人工智能
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
|
6月前
|
弹性计算 运维 安全
从零到一:手把手教你10分钟在阿里云ECS上部署个人博客
本文教你10分钟内用阿里云ECS快速部署个人博客。无需技术基础,只需阿里云账号和公网IP,通过WordPress应用镜像一键搭建。支持域名绑定、HTTPS加密与主题美化,并提供成本优化与安全建议,助你轻松拥有专属技术博客空间。
|
10月前
|
JSON 人工智能 API
工具演变 & MCP基础
本内容介绍了大模型工具调用方式的演进历程,从早期的函数表达阶段到OpenAI的标准化工具定义,再到结构化推理的引入。同时深入解析了MCP(Model Context Protocol)的核心价值,即通过统一协议降低Agent与工具服务集成的工程复杂度,提升工具调用的标准化与效率。
413 0
|
JSON 监控 开发工具
HarmonyOS5云服务技术分享--云函数预加载文章整理
本文详细讲解了如何通过端云一体化方式开发华为云函数,特别是针对预加载服务的应用。从准备工作(如注册华为开发者账号、安装DevEco Studio NEXT)到创建工程、编写代码、调试与部署,手把手教你掌握关键技巧。文章还提供了本地与远程调试方法,以及一键上云的便捷部署步骤,并分享了预加载实战技巧,助你加速应用性能。适合初学者逐步学习,也干货满满可供深入研究。

热门文章

最新文章