Elasticsearch批量导入本地Json文件Java实现

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 题记产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。而ES支持的入库格式,json格式数据会相对方便些。本文主要介绍,如何将格式化的Json文件批量插入到ES中。

1、需提前做的工作

1)设计好索引以及Mapping;


Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。

1

2)Java程序中封装好类,和Mapping设定的字段一一对应。


2、批量导入步骤分解

步骤1:本地文件格式化,统一为Json格式。

一个待导入的数据串,存成一个Json文件。


步骤2:放置在统一./data路径下。 目录结构如下示意:


    ./data

               a_01.json

               a_02.json

               a_03.json

               ...

               a_100.json

1

2

3

4

5

6

步骤3:循环遍历./data文件获取包含绝对路径的文件全名,存入linkedlist中。


步骤4:遍历linkedlist的每个路径,获取Json信息。


步骤5:使用fastjson解析Json,解析成对应设计好的类个各个匹配字段。


步骤6:借助bulk**批量曹操API接口,完成本地文件的导入。


3、核心接口实现

/*

**@brief:遍历Json,批量插入ES

**@param:空

**@return:空

*/

private static void insertBulkIndex() throws Exception {

//Json文件的存储

final String JSONFILEINPUT = ESConfig.es_json_path;

logger.info("path = " + JSONFILEINPUT);

LinkedList<String> curJsonList = FileProcess.getJsonFilePath(JSONFILEINPUT);

logger.info("size = " + curJsonList.size());


for (int i = 0; i < curJsonList.size(); ++i){

//System.out.println(" i = " + i + " " + curJsonList.get(i));

String curJsonPath = curJsonList.get(i);

ImageInfo curImageInfo = JsonParse.GetImageJson(curJsonPath);

//JsonParse.printImageJson(curImageInfo);

if (curImageInfo == null){

continue;

}

//遍历插入操作

InsertIndex (curImageInfo);

}

}


/*

**@brief:单条Json插入ES(借助了Jest封装后的API)

**@param:空

**@return:空

*/

private static void InsertIndex(AgeInfo ageInfo) throws Exception {

JestClient jestClient = JestExa.getJestClient();

JsonParse.PrintImageJson( ageInfo );


Bulk bulk = new Bulk.Builder()

.defaultIndex("age_index")

.defaultType("age_type")

.addAction(Arrays.asList(

new Index.Builder( ageInfo ).build()

)).build();

 JestResult result = jestClient.execute(bulk);

 if (result.isSucceeded()){

 System.out.println("insert success!");

 }else{

 System.out.println("insert failed");

 }


}

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

最终实现效果为:


java -jar bulk_insert.jar ./data/  

1

即可实现./data下的所有json循环遍历导入ES。


4、使用技术

1)文件遍历

2)Json解析

3)ES批量插入操作


5、遇到的坑

程序导出Jar包时候,生成jar包报错。

由于借助了Jest的源码工程,该工程是由Maven生成的。

生成jar包的时候,会一直提示:


“Java.long.ClassNotFoundException"

1

初步定位原因:是maven导致,然后了pom.xml,错误依旧。

最终解决方案:重建工程,将代码和依赖的jar包重新导入即可。


后记

死磕ES,有问题欢迎大家提问探讨!

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
19天前
|
JSON 算法 vr&ar
目标检测笔记(五):查看通过COCOEvaluator生成的coco_instances_results.json文件的详细检测信息,包含AP、AR、MR和DR等
本文介绍了如何使用COCO评估器通过Detectron2库对目标检测模型进行性能评估,生成coco_instances_results.json文件,并利用pycocotools解析该文件以计算AP、AR、MR和DR等关键指标。
48 1
目标检测笔记(五):查看通过COCOEvaluator生成的coco_instances_results.json文件的详细检测信息,包含AP、AR、MR和DR等
|
2月前
|
缓存 Java 关系型数据库
【Java面试题汇总】ElasticSearch篇(2023版)
倒排索引、MySQL和ES一致性、ES近实时、ES集群的节点、分片、搭建、脑裂、调优。
【Java面试题汇总】ElasticSearch篇(2023版)
|
19天前
|
JSON 数据格式 Python
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
这篇文章介绍了一个Python脚本,用于统计TXT或JSON文件中特定单词的出现次数。它包含两个函数,分别处理文本和JSON文件,并通过命令行参数接收文件路径、目标单词和文件格式。文章还提供了代码逻辑的解释和示例用法。
29 0
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
|
2月前
|
XML JSON JavaScript
R JSON 文件
JSON: JavaScript Object Notation(JavaScript 对象表示法)。
64 29
|
27天前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
48 2
|
18天前
|
JSON 数据格式 计算机视觉
Opencv实用笔记(一): 获取并绘制JSON标注文件目标区域(可单独保存目标小图)
本文介绍了如何使用OpenCV和Python根据JSON标注文件获取并绘制目标区域,同时可将裁剪的图像单独保存。通过示例代码,展示了如何读取图片路径、解析JSON标注、绘制标注框并保存裁剪图像的过程。此外,还提供了相关的博客链接,供读者进一步学习。
25 0
|
2月前
|
JSON 前端开发 中间件
React读取properties配置文件转化为json对象并使用在url地址中
本文介绍了如何在React项目中读取properties配置文件,将其内容转化为JSON对象,并在请求URL地址时使用这些配置。文章详细说明了异步读取文件、处理字符串转换为JSON对象的过程,并提供了一个封装函数,用于在发起请求前动态生成配置化的URL地址。
55 1
|
2月前
|
JSON 前端开发 JavaScript
java中post请求调用下载文件接口浏览器未弹窗而是返回一堆json,为啥
客户端调接口需要返回另存为弹窗,下载文件,但是遇到的问题是接口调用成功且不报错,浏览器F12查看居然返回一堆json,而没有另存为弹窗; > 正确的效果应该是:接口调用成功且浏览器F12不返回任何json,而是弹窗另存为窗口,直接保存文件即可。
118 2
|
2月前
|
JSON 前端开发 JavaScript
解析JSON文件
解析JSON文件
107 9
|
2月前
|
JSON 数据格式 Python
6-1|Python如何将json转化为字符串写到文件内 还保留json格式
6-1|Python如何将json转化为字符串写到文件内 还保留json格式