elasticsearch实战三部曲之二:文档操作

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 本文是《elasticsearch实战三部曲》系列的第二篇,上一篇文章我们动手熟悉了索引相关的基本操作,现在一起来熟悉文档相关的操作

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码): https://github.com/zq2599/blog_demos
  • 本文是《elasticsearch实战三部曲》系列的第二篇,上一篇文章我们动手熟悉了索引相关的基本操作,现在一起来熟悉文档相关的操作;

环境信息

  1. 本次实战用到的elasticsearch版本是6.5.4,安装在Ubuntu 16.04.5 LTS,客户端工具是postman6.6.1;
  2. 如果您需要搭建elasticsearch环境,请参考《Linux环境快速搭建elasticsearch6.5.4集群和Head插件》

基本情况介绍

  • 本次实战的elasticsearch环境以及搭建完毕,是由两个机器搭建的集群,并且elasticsearch-head也搭建完成:
  1. 一号机器,IP地址:192.168.119.152;
  2. 二号机器:IP地址:192.168.119.153;
  3. elasticsearch-head安装在一号机器,访问地址:http://192.168.119.152:9100
  4. 已经建立了索引test001

数据格式说明

  • 为了便于和读者沟通,我们来约定一下如何在文章中表达请求和响应的信息:
  • 假设通过Postman工具向服务器发送一个PUT类型的请求,地址是:http://192.168.119.152:9200/test001/article/1
  • 请求的内容是JSON格式的,内容如下:
{
    “id”:1,
    "title":"标题a",
    "posttime":"2019-01-12",
    "content":"一起来熟悉文档相关的操作"
}
  • 对于上面的请求,我在文章中就以如下格式描述:
PUT test001/article/1

{
    “id”:1,
    "title":"标题a",
    "posttime":"2019-01-12",
    "content":"一起来熟悉文档相关的操作"
}
  • 读者您看到上述内容,就可以在postman中发起PUT请求,地址是"test001/article/1"前面加上您的服务器地址,内容是上面的JSON;

新建文档

  • 在索引test001下创建一个文档,类型是article,id为1:
PUT test001/article/1

{
    "id":1,
    "title":"标题a",
    "posttime":"2019-01-12",
    "star":100,
    "content":"一起来熟悉文档相关的操作"
}
  • 收到返回码201,body内容如下,可见version为1:
{
    "_index": "test001",
    "_type": "article",
    "_id": "1",
    "_version": 1,
    "result": "created",
    "_shards": {
        "total": 2,
        "successful": 2,
        "failed": 0
    },
    "_seq_no": 2,
    "_primary_term": 3
}

查找文档

  • 根据id查找刚刚创建的那一条文档:
GET test001/article/1
  • 收到返回码200,body内容如下,索引、类型、id、版本号等全部返回了:
{
    "_index": "test001",
    "_type": "article",
    "_id": "1",
    "_version": 1,
    "found": true,
    "_source": {
        "id": 1,
        "title": "标题a",
        "posttime": "2019-01-12",
        "star": 100,
        "content": "一起来熟悉文档相关的操作"
    }
}
  • 如果查找的文档不存在,返回码为400,返回内容如下:
{
    "_index": "test001",
    "_type": "article",
    "_id": "11",
    "found": false
}

检查文档是否存在

HEAD test001/article/1
  • 该请求的响应没有body,只有返回码,存在时返回200,不存在返回404

根据id一次获取多个文档(_mget命令)

  • 一次查询三条记录,id为1和2的记录真实存在,id为999的记录不存在,请求报文如下:
GET test001/_mget

{
    "docs":[
        {
            "_id":"1"
        },
        {
            "_id":"2"
        },
        {
            "_id":"999"
        }
    ]
}
  • 返回内容如下所示,可见id为999的记录,found字段为false,表示不存在:
{
    "docs": [
        {
            "_index": "test001",
            "_type": "article",
            "_id": "1",
            "_version": 1,
            "found": true,
            "_source": {
                "id": 1,
                "title": "标题a",
                "posttime": "2019-01-12",
                "star": 100,
                "content": "一起来熟悉文档相关的操作"
            }
        },
        {
            "_index": "test001",
            "_type": "article",
            "_id": "2",
            "_version": 1,
            "found": true,
            "_source": {
                "id": 2,
                "title": "标题b",
                "posttime": "2019-01-13",
                "star": 20,
                "content": "Ubuntu16安装nodejs10"
            }
        },
        {
            "_index": "test001",
            "_type": null,
            "_id": "999",
            "found": false
        }
    ]
}

根据id一次获取多个文档(元字段_id)

  • 除了使用_mget命令,还可以通过_search命令的方式,以元字段"_id"作为搜索条件,一次获取多个文档:
GET test001/_search

{
    "query":{
        "terms":{"_id":["1", "2"]}
    }
}
  • 返回码200表示成功,body是搜索结果:
{
    "took": 20,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 2,
        "max_score": 1,
        "hits": [
            {
                "_index": "test001",
                "_type": "article",
                "_id": "2",
                "_score": 1,
                "_source": {
                    "id": 2,
                    "title": "标题b",
                    "posttime": "2019-01-13",
                    "content": "elasticsearch实战三部曲之二"
                }
            },
            {
                "_index": "test001",
                "_type": "article",
                "_id": "1",
                "_score": 1,
                "_source": {
                    "id": 1,
                    "title": "标题1",
                    "posttime": "2019-01-13",
                    "content": "Flink消费kafka消息实战"
                }
            }
        ]
    }
}

更新文档(doc方式)

  • 对于id为1的文档,如果要更新其title字段,请求报文如下,根节点名为"doc",可以对指定字段进行替换:
POST test001/article/1/_update

{
 "doc":{
     "title":"abc"
 }
}
  • 更新成功后,返回码200,返回body:
{
    "_index": "test001",
    "_type": "article",
    "_id": "1",
    "_version": 4,
    "result": "updated",
    "_shards": {
        "total": 2,
        "successful": 2,
        "failed": 0
    },
    "_seq_no": 5,
    "_primary_term": 3
}

更新文档(脚本方式)

  • 还有一种更新文档的方式是提交一段elasticsearch支持的脚本,如下所示,"lang":"painless"表示脚本语言类型为painless,params的内容就是入参,inline的值就是脚本的内容,表示将star字段的值增加100:
POST test001/article/1/_update

{
 "script":{
     "inline":"ctx._source.star += params.star",
     "lang":"painless",
     "params":{
         "star":100
     }
 }
}
  • 执行成功的返回码200,报文:
{
    "_index": "test001",
    "_type": "article",
    "_id": "1",
    "_version": 6,
    "result": "updated",
    "_shards": {
        "total": 2,
        "successful": 2,
        "failed": 0
    },
    "_seq_no": 7,
    "_primary_term": 3
}

查询更新

  • 前面介绍的更新都是指定id的,有的时候我们需要用其他字段查询并更新,例如查找title等于"abc"的记录,将其content字段更新为"123456":
POST test001/_update_by_query

{
 "script":{
     "inline":"ctx._source.content = '123456'",
     "lang":"painless"
 },
 "query":{
     "term":{"title":"abc"}
 }
}
  • 收到返回码200,body内容如下:
{
    "took": 48,
    "timed_out": false,
    "total": 1,
    "updated": 1,
    "deleted": 0,
    "batches": 1,
    "version_conflicts": 0,
    "noops": 0,
    "retries": {
        "bulk": 0,
        "search": 0
    },
    "throttled_millis": 0,
    "requests_per_second": -1,
    "throttled_until_millis": 0,
    "failures": []
}

删除文档(指定ID)

DELETE test001/article/2
  • 删除成功返回码200,body如下:
{
    "_index": "test001",
    "_type": "article",
    "_id": "2",
    "_version": 2,
    "result": "deleted",
    "_shards": {
        "total": 2,
        "successful": 2,
        "failed": 0
    },
    "_seq_no": 3,
    "_primary_term": 2
}

删除文档(带查询条件)

  • 如果想删除title字段等于"abc"的文档:
DELETE test001

{
 "query":{
     "term":{"title":"abc"}
 }
}
  • 删除成功返回码200,body如下:
{
    "acknowledged": true
}
  • 同样的操作再试一次,就会返回404错误,因为记录已经不存在了;

批量操作

  • 要新增多个文档,可以将内容写入json文件,再通过批量操作的接口,将数据一次性POST;
  • 首先创建一个名为book.json的文件,内容如下:
{"index":{ "_index": "books", "_type": "IT", "_id": "1" }}
{"id":"1","title":"Java编程思想","language":"java","author":"Bruce Eckel","price":70.20,"publish_time":"2007-10-01","description":"Java学习必读经典,殿堂级著作!赢得了全球程序员的广泛赞誉。"}
{"index":{ "_index": "books", "_type": "IT", "_id": "2" }}
{"id":"2","title":"Java程序性能优化","language":"java","author":"葛一鸣","price":46.50,"publish_time":"2012-08-01","description":"让你的Java程序更快、更稳定。深入剖析软件设计层面、代码层面、JVM虚拟机层面的优化方法"}
{"index":{ "_index": "books", "_type": "IT", "_id": "3" }}
{"id":"3","title":"Python科学计算","language":"python","author":"张若愚","price":81.40,"publish_time":"2016-05-01","description":"零基础学python,光盘中作者独家整合开发winPython运行环境,涵盖了Python各个扩展库"}
{"index":{ "_index": "books", "_type": "IT", "_id": "4" }}
{"id":"4","title":"Python基础教程","language":"python","author":"Helant","price":54.50,"publish_time":"2014-03-01","description":"经典的Python入门教程,层次鲜明,结构严谨,内容翔实"}
{"index":{ "_index": "books", "_type": "IT", "_id": "5" }}
{"id":"5","title":"JavaScript高级程序设计","language":"javascript","author":"Nicholas C. Zakas","price":66.40,"publish_time":"2012-10-01","description":"JavaScript技术经典名著"}
  • 如上所示,第一行指定了索引、类型、id等基本信息,第二行就是该记录的各个字段的内容;
  • 如果您的电脑可以使用curl命令,那么在book.json文件所在文件夹下面执行此命令即可提交:
curl -XPOST "http://192.168.119.152:9200/_bulk?pretty" -H 'Content-Type: application/json' --data-binary @books.json
  • 如果您在使用postman软件,请按下图方式提交,请注意操作步骤遵循图中的1到6的顺序,url地址是:_bulk?pretty

在这里插入图片描述

  • 批量数据提交后,用head可见新增了一个索引,下面有5条记录,如下图:

在这里插入图片描述

  • 至此,和文档有关的基本操作实战已经完成了,接下来的文章中,我们会进行搜索相关的实战;

欢迎关注阿里云开发者社区博客:程序员欣宸

学习路上,你不孤单,欣宸原创一路相伴...
相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
3月前
|
JSON 自然语言处理 算法
ElasticSearch基础2——DSL查询文档,黑马旅游项目查询功能
DSL查询文档、RestClient查询文档、全文检索查询、精准查询、复合查询、地理坐标查询、分页、排序、高亮、黑马旅游案例
|
3月前
|
JSON 自然语言处理 数据库
ElasticSearch基础1——索引和文档。Kibana,RestClient操作索引和文档+黑马旅游ES库导入
概念、ik分词器、倒排索引、索引和文档的增删改查、RestClient对索引和文档的增删改查
ElasticSearch基础1——索引和文档。Kibana,RestClient操作索引和文档+黑马旅游ES库导入
|
4月前
|
存储 搜索推荐 API
探究:Elasticsearch 文档的 _id 是 Lucene 的 docid 吗?
【8月更文挑战第31天】在深入探索Elasticsearch(简称ES)这一强大的搜索引擎时,了解其底层存储机制——特别是与Lucene的关系,对于优化查询性能、设计高效的数据模型至关重要。其中,一个常见且容易引发误解的问题便是:Elasticsearch中文档的_id字段是否直接等同于Lucene的docid?本文将通过图文并茂的方式,详细剖析这一问题,帮助读者理解两者之间的微妙关系。
108 0
|
4月前
|
JSON 测试技术 API
黑马商城 Elasticsearch从入门到部署 RestClient操作文档
这篇文章详细介绍了如何使用Java的RestHighLevelClient客户端与Elasticsearch进行文档操作,包括新增、查询、删除、修改文档以及批量导入文档的方法,并提供了相应的代码示例和操作步骤。
|
4月前
|
JSON 自然语言处理 Java
Elasticsearch从入门到部署 文档操作 RestAPI
这篇文章详细介绍了Elasticsearch中文档的增删改查操作,并通过Java的RestHighLevelClient客户端演示了如何通过REST API与Elasticsearch进行交云,包括初始化客户端、索引库的创建、删除和存在性判断等操作。
|
5月前
|
存储 数据采集 数据处理
数据处理神器Elasticsearch_Pipeline:原理、配置与实战指南
数据处理神器Elasticsearch_Pipeline:原理、配置与实战指南
219 12
|
4月前
|
消息中间件 监控 数据挖掘
Elasticsearch 使用误区之二——频繁更新文档
【8月更文挑战第15天】在大数据与搜索技术日益成熟的今天,Elasticsearch 作为一款分布式、RESTful 风格的搜索与数据分析引擎,凭借其强大的全文搜索能力和可扩展性,成为了众多企业和开发者的首选。然而,在使用 Elasticsearch 的过程中,一些常见的误区可能会导致性能下降或数据不一致等问题,其中“频繁更新文档”便是一个不容忽视的误区。本文将深入探讨这一误区的根源、影响及解决方案,帮助读者更好地利用 Elasticsearch。2
98 0
|
4月前
|
自然语言处理 Java 索引
ElasticSearch 实现分词全文检索 - Java SpringBoot ES 文档操作
ElasticSearch 实现分词全文检索 - Java SpringBoot ES 文档操作
47 0
|
5月前
|
存储 SQL 自然语言处理
Elasticsearch 索引与文档的常用操作总结二:复杂条件查询
Elasticsearch 索引与文档的常用操作总结二:复杂条件查询
181 0
|
5月前
|
JSON API 数据格式
Elasticsearch 索引与文档的常用操作总结一
Elasticsearch 索引与文档的常用操作总结一
56 0