【Elastic知识简报】standard analyzer和standard tokenizer有什么区别?

简介: analyzer是分析器,由三部分组成:字符过滤器 character filter、令牌过滤器 token filter、分词器tokenizer,所以tokenizer是analyzer的一部分

什么是analyzer,什么是tokenizer?

analyzer是分析器,由三部分组成:字符过滤器 character filter、令牌过滤器 token filter、分词器tokenizer,所以tokenizer是analyzer的一部分
字符过滤器:用于过滤HTML标签、自定义映射、正则替换
令牌过滤器:用于过滤停用词、时态转换、大小写转换、同义词转换、语气词处理等
分词器:按照一定的规则来对字符串分词

standard analyzer和standard tokenizer有什么区别?

standard tokenizer是以空格为分隔符的分词器,而standard analyzer包含了standard tokenizer,并且额外包含了一个大写转小写的字符过滤器

目录
相关文章
|
8月前
|
自然语言处理 算法 Python
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
120 0
|
开发框架 .NET C#
Language Integrated Query
欢迎来到本篇LINQ教程,本文介绍了如何使用C#中的LINQ(Language Integrated Query)。LINQ是C#中的功能,可用于从集合中检索,过滤和操作数据。
|
数据采集 运维 算法
Best Matching Unit,简称 BMU
最佳匹配单元(Best Matching Unit,简称 BMU)是自组织映射(Self-Organizing Maps,简称 SOM)算法中的一个重要概念。在 SOM 网络中,每个神经元都对应一个权重向量,表示该神经元对输入特征的响应。BMU 是指在 SOM 网络中与输入数据最相似的神经元,即具有与输入数据最接近的权重向量。在训练过程中
318 3
《J.P.Morgan's massive guide to machine learning and big data jobs in finance》电子版地址
J.P.Morgan's massive guide to machine learning and big data jobs in finance
111 0
《J.P.Morgan's massive guide to machine learning and big data jobs in finance》电子版地址
|
测试技术
PAT (Basic Level) Practice (中文) B1011 A+B 和 C (15 分)
PAT (Basic Level) Practice (中文) B1011 A+B 和 C (15 分)
115 0
PAT (Basic Level) Practice (中文) B1011 A+B 和 C (15 分)
|
自然语言处理
拼音分词扩展elasticsearch-analysis-pinyin安装
拼音分词扩展elasticsearch-analysis-pinyin安装
252 0
拼音分词扩展elasticsearch-analysis-pinyin安装
|
自然语言处理
【Elastic知识简报】normalizer与analyzer的区别
normalizer与analyzer的作用类似,都是对字段进行处理,但是不同之处在于normalizer不会对字段进行分词,也就是说normalizer没有tokenizer。
292 0
|
自然语言处理 算法 Java
【Elastic Engineering】Elasticsearch:定制分词器(analyzer)及相关性
Elasticsearch:定制分词器(analyzer)及相关性
402 0
【Elastic Engineering】Elasticsearch:定制分词器(analyzer)及相关性
|
机器学习/深度学习 测试技术 Python
PAT (Basic Level) Practice (中文)第1002题
PAT (Basic Level) Practice (中文)第1002题
122 0