elasticsearch 分词

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: analysis 分析是将文本 text 转化为 token 或 term 的过程。token 或 term 随后被添加至倒排索引(inverted index)用于检索。分析(analysis)过程是由分词器(analyzer)来完成的,分词器包括内置(built-in)分词器和自定义(cutsom)分词器。

analysis

分析是将文本 text 转化为 token 或 term 的过程。token 或 term 随后被添加至倒排索引(inverted index)用于检索。分析(analysis)过程是由分词器(analyzer)来完成的,分词器包括内置(built-in)分词器和自定义(cutsom)分词器。
分析(analysis)可以在以下两种情况下发生:

  1. index time
  2. search time

analyzer (分词器)

一个分词器由以下三部分组成,内置分词器主要是为了适应特定语言和文本类型,打包了不同组合的组件,组成了若干种预置分词器。以下组件还能单独暴露,自由组合成自定义分词器。

  • character filters

    • 以字符流的形式接收原始文本,增加、删除或修改字符,例如:剥离html标签,转换 (٠‎١٢٣٤٥٦٧٨‎٩‎) 为阿拉伯数字 (0123456789) 等。
    • 一个分词器可以包含0到多个character filters
  • tokenizers

    • 以字符流的形式接收文本,将它拆分成单个的 token (英文单词、中文单字或词语),输出 token stream (分词流)。
    • tokenizer 还负责记录每个分词的位置顺序,每个分词的首末字母的偏移量(offsets)
    • 一个分词器有且仅有一个 tokenizer
  • token filters

    • 以 token stream (分词流)的形式接收文本,增加、删除或修改分词,例如:单词大写转为小写,去除英文停用词 the,同义词 synonym 替换等操作
    • token filter 不修改分词的位置(position)和字符偏移量(character offsets)
    • 一个分词器可以包含0到多个token filters
相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
24天前
|
JSON 自然语言处理 Java
ElasticSearch 实现分词全文检索 - 搜素关键字自动补全(Completion Suggest)
ElasticSearch 实现分词全文检索 - 搜素关键字自动补全(Completion Suggest)
28 1
|
24天前
|
自然语言处理 Java 关系型数据库
ElasticSearch 实现分词全文检索 - 聚合查询 cardinality
ElasticSearch 实现分词全文检索 - 聚合查询 cardinality
18 1
|
24天前
|
自然语言处理 Java 索引
ElasticSearch 实现分词全文检索 - delete-by-query
ElasticSearch 实现分词全文检索 - delete-by-query
10 1
|
24天前
|
自然语言处理 索引
ElasticSearch 实现分词全文检索 - 测试数据准备
ElasticSearch 实现分词全文检索 - 测试数据准备
41 1
|
24天前
|
自然语言处理 索引
ElasticSearch 实现分词全文检索 - Restful基本操作
ElasticSearch 实现分词全文检索 - Restful基本操作
22 0
ElasticSearch 实现分词全文检索 - Restful基本操作
|
19天前
|
JSON 自然语言处理 数据库
Elasticsearch从入门到项目部署 安装 分词器 索引库操作
这篇文章详细介绍了Elasticsearch的基本概念、倒排索引原理、安装部署、IK分词器的使用,以及如何在Elasticsearch中进行索引库的CRUD操作,旨在帮助读者从入门到项目部署全面掌握Elasticsearch的使用。
|
24天前
|
自然语言处理 Java 关系型数据库
ElasticSearch 实现分词全文检索 - SpringBoot 完整实现 Demo 附源码【完结篇】
ElasticSearch 实现分词全文检索 - SpringBoot 完整实现 Demo 附源码【完结篇】
23 0
|
24天前
|
存储 自然语言处理 Java
ElasticSearch 实现分词全文检索 - 经纬度定位商家距离查询
ElasticSearch 实现分词全文检索 - 经纬度定位商家距离查询
10 0
|
24天前
|
自然语言处理 Java
ElasticSearch 实现分词全文检索 - 高亮查询
ElasticSearch 实现分词全文检索 - 高亮查询
39 0
|
24天前
|
缓存 自然语言处理 Java
ElasticSearch 实现分词全文检索 - filter查询
ElasticSearch 实现分词全文检索 - filter查询
25 0

热门文章

最新文章

下一篇
DDNS