Python Elasticsearch批量操作客户端 1

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Python Elasticsearch批量操作客户端

基于Python实现的Elasticsearch批量操作客户端



 

1.代码用途

Elasticsearch客户端,目的在于实现批量操作,如下:

<1> 批量插入数据

<2> 批量更新文档字段值

<3> 批量新增文档字段值

<4> 批量删除数据

<5> 批量复制数据

<6> 批量去除冗余数据

2.测试环境

Win7 64

 

Python 3.3.2

 

Win elasticsearch-5.4.1

 

chardet-2.3.0

下载地址1https://pypi.python.org/pypi/chardet/

下载地址2http://pan.baidu.com/s/1nu7XzjN

3.使用方法

3.1 配置ES服务器信息

编辑配置文件conf/hostconfig

[DESTHOSTCONFIG]

host = 127.0.0.1

port = 9200

protocol = http

 

[SRCHOSTCONFIG]

host = 127.0.0.1

port = 9200

protocol = http

 

[README]

host = Elasticsearch所在服务器IP地址

port = Elasticsearch访问端口

protocol = 暂且固定为http

 

说明:

[DESTHOSTCONFIG]: 该节点下配置需要执行批量插入,批量更新文档,批量删除,批量复制时的ES主机信息

 

[SRCHOSTCONFIG]:该节点下配置需要复制ES数据的数据源主机信息,即从该节点下的ES主机复制到[DESTHOSTCONFIG]下的主机,两者可以是同一台主机

 

host = Elasticsearch所在服务器IP地址

port = Elasticsearch访问端口

protocol = 暂且固定为http

 

3.2 配置ES操作数据

 

3.2.1 批量插入数据

编辑配置文件conf/runconfig.txt

[RUNCONFIG]
runtimes = 1

说明:

runtimes = 执行批量插入时,每组数据会被重复执行的次数,总插入记录数=runtimes x数据组数

 

 

编辑配置文件conf/esdataconfig_insertdata.txt

 

[INSERTDATA]

index= business_chance

type = customer_num1

 

{

  "group_customer_code": "1",

  "second_class": "服装||手机||水果",

  "customer_num": 100||200||300,

  "province": "广东省||福建省||云南省",

  "branch": "品牌1||品牌2"

}

end

 

{

  "group_customer_code": "2",

  "second_class": "服装",

  "customer_num": 400,

  "province": "广东省",

  "branch": "品牌3"

}

end

 

type = customer_num2

 

{

  "group_customer_code": "1",

  "second_class": "服装",

  "customer_num": 600,

  "province": "广东省",

  "branch": "品牌",

  "rank":1

}

end

 

 

index= business_index

type = customer_type

 

{

  "group_customer_code": "1",

  "second_class": "服装",

  "customer_num": 600,

  "province": "广东省",

  "branch": "品牌2",

  "rank":1

}

end

 

说明:

[INSERTDATA] ------------->固定值

index= 索引名称,不为空  

type =类型名称,不可为空

 

{

  "group_customer_code": "1",

  "second_class": "服装||手机||水果",

  "customer_num": 100||200||300,

  "province": "广东省||福建省||云南省",

  "branch": "品牌1||品牌2"

}

end

 

需要提交的一组数据,没组数据遵守json格式,后面一定要跟“end” 表示数据范围结束

 

"second_class": "服装||手机||水果", 

1)如果有多个参数值,以 || 分隔,运行时程序随机选取一个

2)参数值如果是字符串类型,加以英文双引号",否则不加双引号

 

从上往下,

1)如果已填写index,需要切换文档类型,可直接另起一行,如下

type = customer_num2

表示接下来的数据组插入到该文档类型,直到遇到其它索引、文档类型

 

2)如果需要提交到其它新的索引,可直接另起一行,填写新的索引和类型,如下

index= business_index

type = customer_type

表示接下来的数据组插入到新索引名称下的新索引类型中

 

 

 

3.2.2批量更新文档字段值|新增字段值

编辑配置文件conf/esdataconfig_updatefield.txt

[UPDATEFIELD]

index=business_chance

type = customer_num1

 

查询=

{

  "query": {

     "match_phrase": {

        "province": "广东省"

     }

  },"size":150

}

end

 

{

"branch": "品牌99||品牌66",

"customer_num": 900||888

}

end

 

 

type = customer_num2

 

查询=

{

  "query": {

     "match_all": {}

  },

  "size": 100

}

end

 

{

"branch": "品牌999",

"customer_num": 990

}

end

 

index= business_index

type = customer_type

 

查询=

{

  "query": {

     "match_all": {}

  },

  "size": 100

}

end

 

{

"branch": "品牌666",

"customer_num": 666

}

end

 

说明:

[UPDATEFIELD]   ------------>固定值

index=需要更新记录所在索引名称,不可为空

type =需要更新记录所在文档类型,不可为空

 

 

查询={……}仅更新满足查询条件的结果,不可为空

查询=

{

  "query": {

     "match_phrase": {

        "province": "广东省"

     }

  },

  "size":150

}

end

 

这里的逻辑是这样的:先“查询”,再对查询出来的每条记录进行更新

注意:

不使用size参数的话,ES默认仅仅会返回10条记录,程序仅会对返回的记录数进行更新,所以,如果需要更新的记录数大于10条,需要通过"size"参数,显示控制ES返回的记录数,比如“需要更新的记录数有150条,则size的值要设置大于等于150”(下同,不在赘述)

 

参数数据组

{

"branch": "品牌99||品牌66", 

"customer_num": 900||888

}

end

 

同批量插入

1)如果有多个参数值,以 || 分隔,运行时程序随机选取一个

2)参数值如果是字符串类型,加以英文双引号",否则不加双引号

 

从上往下,

1)如果已填写index,需要切换文档类型,可直接另起一行,如下

type = customer_num2

表示接下来的数据组更新,只更新归属该文档类型的记录,直到遇到其它索引、文档类型

 

3)如果需要更新归属其它新索引的记录,可直接另起一行,填写新的索引和类型,如下

index= business_index

type = customer_type

表示接下来的数据组只更新新索引名称下的新索引类型中的记录,直到遇到其它索引、文档类型

 

同批量插入,查询,参数数据组,都必须跟 end,表示数据范围结束

 

另外,需要注意的是:“查询”,必须位于参数数组上方,索引类型下方

 

批量新增文档字段:如果填写的字段不存在,则会新增字段及对应值

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
1月前
|
Python
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
使用Python的socket库实现客户端到服务器端的图片传输,包括客户端和服务器端的代码实现,以及传输结果的展示。
130 3
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
|
1月前
|
JSON 数据格式 Python
Socket学习笔记(一):python通过socket实现客户端到服务器端的文件传输
本文介绍了如何使用Python的socket模块实现客户端到服务器端的文件传输,包括客户端发送文件信息和内容,服务器端接收并保存文件的完整过程。
135 1
Socket学习笔记(一):python通过socket实现客户端到服务器端的文件传输
|
4月前
|
索引 Python
【Python】已解决:elasticsearch.exceptions.RequestError: TransportError(400, ‘search_phase_execution_exc
【Python】已解决:elasticsearch.exceptions.RequestError: TransportError(400, ‘search_phase_execution_exc
253 0
|
2月前
|
关系型数据库 MySQL Python
mysql之python客户端封装类
mysql之python客户端封装类
|
3月前
|
网络协议 安全 Unix
6! 用Python脚本演示TCP 服务器与客户端通信过程!
6! 用Python脚本演示TCP 服务器与客户端通信过程!
|
3月前
|
传感器 数据采集 算法
python实现ModBusRTU客户端方式
python实现基于串口通信的ModBusRTU客户端是一件简单的事情,只要通过pymodbus模块就可以实现。
|
3月前
|
开发者 Python
深入解析Python `httpx`源码,探索现代HTTP客户端的秘密!
深入解析Python `httpx`源码,探索现代HTTP客户端的秘密!
87 1
|
4月前
|
传感器 数据采集 算法
python实现ModBusRTU客户端方式
python实现基于串口通信的ModBusRTU客户端是一件简单的事情,只要通过pymodbus模块就可以实现。
|
5月前
|
JSON 数据格式 Python
Python 的 requests 库是一个强大的 HTTP 客户端库,用于发送各种类型的 HTTP 请求
【6月更文挑战第15天】Python的requests库简化了HTTP请求。安装后,使用`requests.get()`发送GET请求,检查`status_code`为200表示成功。类似地,`requests.post()`用于POST请求,需提供JSON数据和`Content-Type`头。
58 6
|
5月前
|
Linux 数据安全/隐私保护 Python
使用Python实现Linux惠尔顿上网认证客户端
使用Python实现Linux惠尔顿上网认证客户端
142 0