先看后赞,养成习惯。
点赞收藏,人生辉煌。
在Elasticsearch中,分词器是用于将文本数据划分为一系列的单词(或称之为词项、tokens)的组件。这个过程是全文搜索中的关键步骤。
一个分词器通常包含以下三个部分:
- 字符过滤器(Character Filters):它接收原始文本作为输入,然后可以对这些原始文本进行各种转换,如去除HTML标签,将数字转换为文字等。
- 分词器(Tokenizer):它将经过字符过滤器处理后的文本进行切分,生成一系列词项。例如,标准分词器会按照空格将文本切分成词项。
- 词项过滤器(Token Filters):它对词项进行进一步的处理。比如小写化,停用词过滤(移除常见而无意义的词汇如"and", "the"),同义词处理,stemming(提取词根)等。
Elasticsearch提供了许多内置的分词器,如标准分词器(Standard Tokenizer)、简单分词器(Simple Tokenizer)、空白分词器(Whitespace Tokenizer)、关键字分词器(Keyword Tokenizer)等。每种分词器都有其特定的应用场景,并且用户也可以自定义分词器以满足特殊需求。
规范化:normalization
在Elasticsearch中,"normalization" 是指将文本数据转化为一种标准形式的步骤。这种处理主要发生在索引时,包括以下操作:
- Lowercasing:将所有字符转换为小写。这是最常见的标准化形式,因为搜索常常是不区分大小写的。
- Removing diacritical marks:移除重音符号或其他变音记号。例如,将 "résumé" 转换为 "resume"。
- Converting characters to their ASCII equivalent:将非ASCII字符转换为等效的ASCII字符。例如,将 "ë" 转换为 "e"。
这些转换有助于提高搜索的准确性,因为用户可能以各种不同的方式输入同一个词语。通过将索引和搜索查询都转换为相同的形式,可以更好地匹配相关结果。
说白了normalization就是将不通用的词汇变成通用的词汇。文档规范化,提高召回率。
举个例子:
假设我们希望在 Elasticsearch 中创建一个新的索引,该索引包含一个自定义分析器,该分析器将文本字段转换为小写并移除变音符号。可以使用以下请求:
PUT /my_index { "settings": { "analysis": { "analyzer": { "my_custom_analyzer": { "type": "custom", "tokenizer": "standard", "filter": ["lowercase", "asciifolding"] } } } }, "mappings": { "properties": { "my_field": { "type": "text", "analyzer": "my_custom_analyzer" } } } }
在这个例子中,我们首先使用 PUT
请求创建了一个名为 "my_index" 的新索引。然后,在 settings
对象中定义了一个名为 "my_custom_analyzer" 分析器。
这个分析器包括三部分:
"type": "custom"
: 这表示我们正在创建一个自定义分析器。"tokenizer": "standard"
: 这设置了标准分词器,它按空格和标点符号将文本拆分为单词。"filter": ["lowercase", "asciifolding"]
: 这是一个过滤器链,将所有文本转为小写 (lowercasing) 并移除所有的变音符号(如 accented characters)。
最后,在 mappings
对象中,我们指定 "my_field" 字段要使用这个自定义分析器。
现在,当我们索引包含像 "Résumé" 这样的文本时,它会被标准化为"resume",这样无论用户输入 "resume" 还是 "résumé" 或者 "RESUME", 都能匹配到正确的结果。
POST /my_index/_doc { "my_field": "Méditerranéen RÉSUMÉ" }
Elasticsearch 在索引这个文档时会将 "Méditerranéen RÉSUMÉ" 转换成 "mediterraneen resume"。这样,无论搜索查询是 "Méditerranéen", "méditerranéen", "MEDITERRANÉEN", "Resume", "résumé" 或 "RESUME",都能找到这个文档。
字符过滤器:character filter
Character filters就是在分词之前过滤掉一些无用的字符, 是 Elasticsearch 中的一种文本处理组件,它可以在分词前先对原始文本进行处理。这包括删除HTML标签、转换符号等。
下面是一些常用的 character filter:
- HTML Strip Character Filter:从输入中去除HTML元素,只保留文本内容。例如,
<p>Hello World</p>
被处理为"Hello World"
。 - Mapping Character Filter:通过一个预定义的映射关系,将指定的字符或字符串替换为其他字符或字符串。例如,你可以定义一个规则将 "&" 替换为 "and"。
- Pattern Replace Character Filter:使用正则表达式匹配和替换字符。
HTML Strip Character Filter
HTML Strip Character Filter 是 Elasticsearch 中的一个 character filter,其功能是从输入的文本中去除 HTML 元素。这对于处理包含 HTML 标签的文本十分有用。
下面的例子展示了如何创建一个使用 HTML Strip Character Filter 的索引:
PUT /my_index { "settings": { "analysis": { "analyzer": { "my_html_analyzer": { "tokenizer": "standard", "char_filter": ["html_strip"] } } } }, "mappings": { "properties": { "my_field": { "type": "text", "analyzer": "my_html_analyzer" } } } }
在这个例子中,我们首先创建了一个新的索引 "my_index"。然后,在分析器配置中,我们创建了一个名为 "my_html_analyzer" 的分析器,并在此分析器中使用了名为 "html_strip" 的内置 character filter。这将会移除 "my_field" 字段中任何的 HTML 标记,只保留纯文本内容。
如果你现在往该索引插入一个包含HTML标签的文档,例如:
POST /my_index/_doc { "my_field": "<p>Hello World</p>" }
Elasticsearch 将会把 "
Hello World
" 看作是 "Hello World" 进行索引。这样无论搜索者输入 "Hello World" 还是 "
Hello World
",都可以找到这个文档。
Mapping Character Filter
在Elasticsearch中,Mapping Character Filter允许通过创建自定义字符映射来预处理文本。这意味着在进行索引或搜索时,可以将特定的字符或字符序列替换为其他字符。
例如,如果你正在处理法语文本并希望统一所有形式的“è”,你可能会创建一个映射,将“è”映射为“e”。或者,如果你正在处理包含特定公司名称的文本,并希望将所有变体都映射到一个常见形式,可以使用此过滤器。
具体的配置如下:
PUT /my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "keyword", "char_filter": ["my_char_filter"] } }, "char_filter": { "my_char_filter": { "type": "mapping", "mappings": ["&=> and ", "è => e"] } } } }, "mappings": { "properties": { "text": { "type": "text", "analyzer": "my_analyzer" } } } }
在这个例子中,我们创建了一个新的char_filter,命名为my_char_filter。然后在分析器my_analyzer中引用了这个字符过滤器。最后,我们定义了两个映射:“&”映射为“and ”,以及“è”映射为“e”。
总的来说,Mapping Character Filter提供了一种灵活的方式,让你能够根据需求修改和控制如何处理文本数据。
当你配置了索引并创建了特定的字符映射规则后,你可以往该索引中插入文档。以下是一个例子:
PUT /my_index/_doc/1 { "text": "M&M's are delicious!" }
在这个例子中,我们向 my_index
索引中的 text
字段添加了一条记录:"M&M's are delicious!"。因为我们之前在 my_analyzer
中定义了一个映射规则,它会自动把 "&" 替换成 "and"。
所以,在Elasticsearch中,无论用户搜索 "M and M's are delicious!" 还是原始的 "M&M's are delicious!",都能找到这条记录。同时,如果你检索这个文档,例如 GET /my_index/_doc/1
,返回的结果中 text
字段仍为原始输入: "M&M's are delicious!",因为 character filter 只对搜索和索引过程生效,不会改变实际存储的文档内容。
Mapping Character Filter还有一个使用场景,比如平时我们网上发送弹幕或者游戏中公屏聊天的时候,要是说脏话,脏话内容会被替代为:*。
Pattern Replace Character Filter
Pattern Replace Character Filter 是 Elasticsearch 中一个强大的工具,它允许使用正则表达式来匹配文本,并将匹配的内容替换为指定的字符串。这对于处理有复杂需求的文本非常有用。
例如,假设你需要在索引或搜索时删除所有的数字,可以使用 Pattern Replace Character Filter,并设置一个匹配所有数字的正则表达式 [0-9]
,然后将其替换为空字符串或其他所需的字符。
示例如下:
PUT /my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "keyword", "char_filter": ["my_pattern_replace_char_filter"] } }, "char_filter": { "my_pattern_replace_char_filter": { "type": "pattern_replace", "pattern": "[0-9]", "replacement": "" } } } }, "mappings": { "properties": { "text": { "type": "text", "analyzer": "my_analyzer" } } } }
在这个例子中,我们定义了一个名为 my_pattern_replace_char_filter
的字符过滤器,该过滤器将所有数字(匹配正则表达式 [0-9]
)替换为一个空字符串("")。然后,在我们的分析器 my_analyzer
中使用了这个字符过滤器。最后,在映射中我们指定了字段 "text" 使用这个分析器。因此,当你向 "text" 字段存储含有数字的文本时,所有的数字会被移除。
当你配置好索引并设定了特定的字符过滤规则后,你可以向这个索引插入文档。例如:
PUT /my_index/_doc/1 { "text": "I have 10 apples." }
在这个例子中,我们向my_index
索引的text
字段添加了一条记录:"I have 10 apples."。因为我们之前在 my_analyzer
中定义了一个正则表达式替换规则,它会自动把数字("[0-9]")替换为空字符串。
所以,在Elasticsearch中,无论用户搜索 "I have apples." 还是原始的 "I have 10 apples.",都能找到这条记录。同时,如果你检索这个文档,例如 GET /my_index/_doc/1
,返回的结果中 text
字段仍为原始输入: "I have 10 apples.",因为 character filter 只对搜索和索引过程生效,不会改变实际存储的文档内容。
Pattern Replace Character Filter有一个常用的场景就是手机号脱敏,比如:假设我们希望将电话号码中的某几位数字替换为星号 "*" 来进行脱敏处理。可以使用 Pattern Replace Character Filter 进行配置,如下:
PUT /my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "keyword", "char_filter": ["my_pattern_replace_char_filter"] } }, "char_filter": { "my_pattern_replace_char_filter": { "type": "pattern_replace", "pattern": "(\d{3})(\d{4})(\d{4})", "replacement": "$1****$3" } } } }, "mappings": { "properties": { "text": { "type": "text", "analyzer": "my_analyzer" } } } }
在这个示例中,我们创建的 my_pattern_replace_char_filter
将匹配任意连续10位数字的电话号码,并将其中的第 4 至第 7 位替换为四个星号 "*"。
然后插入一条包含手机号的文档:
PUT /my_index/_doc/1 { "text": "My phone number is 12345678901." }
Elasticsearch 在索引这个文档时,会按照我们设置的规则将手机号码脱敏为 "123****8901",所以无论用户搜索 "My phone number is 12345678901." 还是 "My phone number is 123****8901." 都能找到这条记录。