ES 批量操作-bullk | 学习笔记

简介: 快速学习 ES 批量操作-bullk

开发者学堂课程【ElasticSearch 入门精讲ES 批量操作-bullk学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/631/detail/9958


ES 批量操作-bullk


Bullk 指的是将一个文件中的一系列索引信息批处理,速度呢也是快很多;

怎么来进行一个批量的操作呢?

这里有相应的现象:

比如将指定文件的信息批量保存到我们指定的索引库服务器里面去处理:

curl-XPGTS‘http//localhost:9200/bank/accout/bullk? Pretty’--- data-binary“@data/accounts.josn”

@定位到 josn 模式的格式;

成功后便是这样:

accounts 数据说明.txt

银行客户账号信息文档,文档 schema 如下

{    

“Accounts number”:0  银行账户编号

“balance”:16623      银行账户余额

“fistanme”: “Bradshawa”

“lastname”:Mckenize”

“age”:29

“gerrder”:”F”

“ADDRESS’   籍贯

“employer”:  职务

“city”: 城市

“state”: 州

}

批量操作:

案例⑩

步骤:

①新建名为 bank 的索引库

②将待处理的数据上传到 linux 指定目录下,上传成功后进行操作

③进行批量录入操作,按照以下格式导入:

Cturl -H“Content-Type:application/json”-XPOST” http://JANSON01:9200/bank/account/ bullk’--data-binary@/home/Milk/data/accounts.json

(merry表示创建失败,成功后便会反馈给客户端,这时候可以查询一下:

XGET’http://JANSON01:9200/bank/accout/seach?Pretty’

会分页的形式表现出来。

批量处理注意点说明:

(a)Bullk 请求可以在 URL 中声明_index或者_index/_type

(b)Bullk 一次最大处理多少数据量

Bullk会把将要处理的数据载入内存中,所以数据量是有限制的

最佳的数据量不是一个确定的数值,它取决于你的硬件,你的文档大小以及复杂性,你的索引以及搜索的负载。

一般建议是1000~5000个文档,如果你的文档很大,可以适当减少队列,大小建议是5~15MB,默认不能超过100M,可以在ES的配置文件中修改这个值。

http.max_content_length:100mb

(c)灵活使用批处理操作,会大幅度提高程序执行的效率,但是,批处理操作的数据量有一个临界值的,不是没有极限的!

补充说明:

可以查看一下各个索引库信息,可以尝试一下

curl 'httplljanson019200/ catindices?v

【root@JANSONO1~】# curl 'httpilianson019200/cat/indicesγ'health status index uuid

yellow open bigdata Np2WkyQQeqtNyzOug8cOA

yellow open bank yrks XUdSJWJZgOlbt0GkQ

ElasticSearch 的集群状态∶

docs.count docsdeleted store.size 1000 rep

pri.store.size

pri

19.2kb 19.2kb 482.7kb

482.7kb

Green∶ 所有的主分片和副分片都可用(主分片∶es集群中主节点上的分片;副分片∶es集群中从节点上的分片)

Yellow ∶所有的主分片都可用,不是所有的副分片都可用

Red∶ 不是所有的主分片和副分片都可用

相关文章
|
12月前
|
存储 缓存 Linux
Go Modules 介绍与基本操作(上)
Go Modules 介绍与基本操作
87 0
|
5月前
|
存储 Unix 索引
ES常用查询命令
ES常用查询命令
|
5月前
|
DataWorks 数据管理 大数据
DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
89 0
|
5月前
|
API 开发工具 网络架构
springtboot 操作es
springtboot 操作es
|
12月前
|
Go API
Go Modules 介绍与基本操作(下)
Go Modules 介绍与基本操作(下)
63 0
|
JSON 移动开发 NoSQL
【ES系列九】——批量同步数据至ES
通过es官网提供的bulk方法进行实现
|
Python
Python 库配置问题:“Couldn‘t find ffmpeg or avconv - defaulting to ffmpeg, but may not work“. 解决办法
Python 库配置问题:“Couldn‘t find ffmpeg or avconv - defaulting to ffmpeg, but may not work“. 解决办法
902 0
Python 库配置问题:“Couldn‘t find ffmpeg or avconv - defaulting to ffmpeg, but may not work“. 解决办法
ES6中&&和 __ 鲜为人知的骚操作
ES6中&&和 __ 鲜为人知的骚操作
122 0
|
固态存储 架构师 开发工具
|
JSON Linux API
ES 批量操作-bulk|学习笔记
快速学习 ES 批量操作-bulk。
401 0
ES 批量操作-bulk|学习笔记