大数据数据存储的搜索引擎Elasticsearch的基本操作(含API使用)的文档操作的分词

简介: 搜索引擎Elasticsearch是一种流行的大数据存储和分析工具,它可以通过API来进行数据索引、查询和分析等操作。在本文中,我们将会介绍Elasticsearch的文档操作之一:分词。


  1. 分词器

分词是将输入的文本分解成独立单元的过程,这些单元通常称为tokens或terms。在Elasticsearch中,分词由分词器(tokenizer)、过滤器(filter)和字符过滤器(char filter)组成。

分词器负责将输入文本分解成tokens,Elasticsearch内置了多种分词器,如标准分词器(standard tokenizer)、较简单的空格分词器(whitespace tokenizer)等。除了内置分词器,Elasticsearch还支持用户自定义分词器。

  1. 过滤器

过滤器负责对tokens进行进一步处理,如删除停用词、将tokens转换为小写字母、提取数字等。Elasticsearch也内置了多种过滤器,如停用词过滤器(stopwords filter)、小写字母过滤器(lowercase filter)等。同样地,用户也可以自定义过滤器。

  1. 字符过滤器

字符过滤器负责在分词器执行之前对输入文本进行预处理,如替换某些字符、删除HTML标签等。Elasticsearch内置了多种字符过滤器,如HTML字符过滤器(html strip char filter)等。同样地,用户也可以自定义字符过滤器。

  1. 分析器

分析器是将分词器、过滤器和字符过滤器组合起来形成的文本处理管道。Elasticsearch支持多种预定义分析器,如标准分析器(standard analyzer)、简单分析器(simple analyzer)等。用户也可以根据具体需求自定义分析器,例如创建一个针对中文文本的自定义分析器。

在具体使用过程中,我们可以通过以下API来指定不同的分析器:

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "whitespace",
          "filter": [
            "lowercase",
            "stop"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "my_analyzer"
      }
    }
  }
}

以上就是Elasticsearch分词的简要介绍。当然,在实际应用中我们可能会遇到更加复杂的场景和需求,需要结合具体情况进行灵活调整和优化。

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
目录
相关文章
|
6月前
|
缓存 监控 前端开发
顺企网 API 开发实战:搜索 / 详情接口从 0 到 1 落地(附 Elasticsearch 优化 + 错误速查)
企业API开发常陷参数、缓存、错误处理三大坑?本指南拆解顺企网双接口全流程,涵盖搜索优化、签名验证、限流应对,附可复用代码与错误速查表,助你2小时高效搞定开发,提升响应速度与稳定性。
|
自然语言处理 大数据 应用服务中间件
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
350 5
|
自然语言处理 Java 网络架构
elasticsearch学习三:elasticsearch-ik分词器的自定义配置 分词内容
这篇文章是关于如何自定义Elasticsearch的ik分词器配置以满足特定的中文分词需求。
760 0
elasticsearch学习三:elasticsearch-ik分词器的自定义配置 分词内容
|
存储 人工智能 自然语言处理
Elasticsearch Inference API增加对阿里云AI的支持
本文将介绍如何在 Elasticsearch 中设置和使用阿里云的文本生成、重排序、稀疏向量和稠密向量服务,提升搜索相关性。
624 14
Elasticsearch Inference API增加对阿里云AI的支持
|
存储 人工智能 API
(Elasticsearch)使用阿里云 infererence API 及 semantic text 进行向量搜索
本文展示了如何使用阿里云 infererence API 及 semantic text 进行向量搜索。
635 8
|
监控 API 索引
Elasticsearch集群使用 _cluster/health API
Elasticsearch集群使用 _cluster/health API
635 2
|
Unix API 索引
Elasticsearch集群使用 _cat/health API
Elasticsearch集群使用 _cat/health API
339 1
|
测试技术 API 开发工具
ElasticSearch的IK分词器
ElasticSearch的IK分词器
279 7
|
存储 NoSQL 大数据
大数据 数据存储优化
【10月更文挑战第25天】
746 2
|
存储 NoSQL 大数据
大数据中数据存储 (Data Storage)
【10月更文挑战第17天】
2084 2

热门文章

最新文章