Python Elasticsearch批量操作客户端2

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Python Elasticsearch批量操作客户端

 

3.2.3 批量删除

编辑配置文件conf/esdataconfig_deletedata.txt

 

[DELETEDATA]
index= business_chance
type = customer_num1

查询=
{
  "query": {
     "match_phrase": {
        "province": "广东省"
     }
  }

}
end

index= business_index
type = customer_type

{
  "query": {
     "match_phrase": {
        "province": "广东省"
     }
  }
}

end

 

说明:

[DELETEDATA] --------固定值
index=要删除记录所在索引
type =要删除记录所在类型


查询={……}仅更新满足查询条件的结果,不可为空

查询=

{

  "query": {

     "match_phrase": {

        "province": "广东省"

     }

  }

}

end

 

这里的逻辑是这样的:如先“查询”,再对查询出来的每条记录(ES实际返回的记录)进行删除

 

其它说明同上

3.2.4 批量去除冗余(重复)的数据

编辑配置文件conf/esdataconfig_deduplicatedata.txt

[DEDUPLICATEDATA]

index= business_index

type = customer_num2

 

查询=

{

  "query": {

     "match_phrase": {

        "province": "广东省"

     }

  },

  "size":100

}

end

 

type = customer_type

查询=

{

  "query": {

     "match_all": {}

  },

  "size": 100

}

end

 

index= business_chance

type = customer_num1

查询=

{

  "query": {

     "match_all": {}

  },

  "size": 100

}

end

 

注意:

这里的查询不能为空,一定要填写

 

这里的实现逻辑是这样的:先查询,然后删除查询出来的全部记录,最后再把不重复的记录写回到ES中。

 

其它说明同上

 

3.2.5 批量复制数据

编辑配置文件conf/esdataconfig_copydata.txt

 

[COPYDATA]

index= business_chance

type = customer_num1

 

查询=

{

  "query": {

     "match_phrase": {

        "province": "广东省"

     }

  }

}

end

 

type = customer_num2

查询=

{

  "query": {

     "match_phrase": {

        "province": "广东省"

     }

  }

}

end

 

格式基本同上述的批量更新文档的配置,多少有点不一样,需要注意如下:

1) 这里的index,type分别为数据源所在的索引和类型,即需要从该索引和类型中复制数据到目标索引和类型,不能为空

index= business_chance

type = customer_num1

 

 

2)条件=配置需要“复制数据到”的目标索引,和目标类型,如下,以逗号分隔,一个条件仅仅支持一个目标indextype

 

条件 = index = business_index  , type = customer_num2

end

 

条件和查询都不能为空。

 

这里的实现逻辑是这样的:对数据源所在的index, type通过“查询”得到要复制的数据,然后根据“条件”设置的目标索引和类型名,复制到对应目标主机上的目标索引,目标类型中。

说明:重复复制,会生成重复数据

 

如果觉得麻烦,以上几个数据配置的内容,可以写在一个文件里,但是必须按格式填写

 

3.3 运行程序

cmd进入ESBatchOperator根目录(main.py所在目录)

python main.py

按提示,输入数字编号 12345,回车运行

 

 

源码下载地址:基于Python实现的Elasticsearch批量操作客户端


 

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
1月前
|
Python
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
使用Python的socket库实现客户端到服务器端的图片传输,包括客户端和服务器端的代码实现,以及传输结果的展示。
130 3
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
|
1月前
|
JSON 数据格式 Python
Socket学习笔记(一):python通过socket实现客户端到服务器端的文件传输
本文介绍了如何使用Python的socket模块实现客户端到服务器端的文件传输,包括客户端发送文件信息和内容,服务器端接收并保存文件的完整过程。
135 1
Socket学习笔记(一):python通过socket实现客户端到服务器端的文件传输
|
4月前
|
索引 Python
【Python】已解决:elasticsearch.exceptions.RequestError: TransportError(400, ‘search_phase_execution_exc
【Python】已解决:elasticsearch.exceptions.RequestError: TransportError(400, ‘search_phase_execution_exc
253 0
|
2月前
|
关系型数据库 MySQL Python
mysql之python客户端封装类
mysql之python客户端封装类
|
3月前
|
网络协议 安全 Unix
6! 用Python脚本演示TCP 服务器与客户端通信过程!
6! 用Python脚本演示TCP 服务器与客户端通信过程!
|
3月前
|
传感器 数据采集 算法
python实现ModBusRTU客户端方式
python实现基于串口通信的ModBusRTU客户端是一件简单的事情,只要通过pymodbus模块就可以实现。
|
3月前
|
开发者 Python
深入解析Python `httpx`源码,探索现代HTTP客户端的秘密!
深入解析Python `httpx`源码,探索现代HTTP客户端的秘密!
87 1
|
4月前
|
传感器 数据采集 算法
python实现ModBusRTU客户端方式
python实现基于串口通信的ModBusRTU客户端是一件简单的事情,只要通过pymodbus模块就可以实现。
|
5月前
|
JSON 数据格式 Python
Python 的 requests 库是一个强大的 HTTP 客户端库,用于发送各种类型的 HTTP 请求
【6月更文挑战第15天】Python的requests库简化了HTTP请求。安装后,使用`requests.get()`发送GET请求,检查`status_code`为200表示成功。类似地,`requests.post()`用于POST请求,需提供JSON数据和`Content-Type`头。
58 6
|
5月前
|
Linux 数据安全/隐私保护 Python
使用Python实现Linux惠尔顿上网认证客户端
使用Python实现Linux惠尔顿上网认证客户端
142 0