Elasticsearch批量导入本地Json文件Java实现-阿里云开发者社区

开发者社区> laoyang360> 正文

Elasticsearch批量导入本地Json文件Java实现

简介: 题记 产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。 互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。 而ES支持的入库格式,json格式数据会相对方便些。 本文主要介绍,如何将格式化的Json文件批量插入到ES中。
+关注继续查看

1、需提前做的工作

1)设计好索引以及Mapping;


Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。

1

2)Java程序中封装好类,和Mapping设定的字段一一对应。


2、批量导入步骤分解

步骤1:本地文件格式化,统一为Json格式。

一个待导入的数据串,存成一个Json文件。


步骤2:放置在统一./data路径下。 目录结构如下示意:


    ./data

               a_01.json

               a_02.json

               a_03.json

               ...

               a_100.json

1

2

3

4

5

6

步骤3:循环遍历./data文件获取包含绝对路径的文件全名,存入linkedlist中。


步骤4:遍历linkedlist的每个路径,获取Json信息。


步骤5:使用fastjson解析Json,解析成对应设计好的类个各个匹配字段。


步骤6:借助bulk**批量曹操API接口,完成本地文件的导入。


3、核心接口实现

/*

**@brief:遍历Json,批量插入ES

**@param:空

**@return:空

*/

private static void insertBulkIndex() throws Exception {

//Json文件的存储

final String JSONFILEINPUT = ESConfig.es_json_path;

logger.info("path = " + JSONFILEINPUT);

LinkedList<String> curJsonList = FileProcess.getJsonFilePath(JSONFILEINPUT);

logger.info("size = " + curJsonList.size());


for (int i = 0; i < curJsonList.size(); ++i){

//System.out.println(" i = " + i + " " + curJsonList.get(i));

String curJsonPath = curJsonList.get(i);

ImageInfo curImageInfo = JsonParse.GetImageJson(curJsonPath);

//JsonParse.printImageJson(curImageInfo);

if (curImageInfo == null){

continue;

}

//遍历插入操作

InsertIndex (curImageInfo);

}

}


/*

**@brief:单条Json插入ES(借助了Jest封装后的API)

**@param:空

**@return:空

*/

private static void InsertIndex(AgeInfo ageInfo) throws Exception {

JestClient jestClient = JestExa.getJestClient();

JsonParse.PrintImageJson( ageInfo );


Bulk bulk = new Bulk.Builder()

.defaultIndex("age_index")

.defaultType("age_type")

.addAction(Arrays.asList(

new Index.Builder( ageInfo ).build()

)).build();

 JestResult result = jestClient.execute(bulk);

 if (result.isSucceeded()){

 System.out.println("insert success!");

 }else{

 System.out.println("insert failed");

 }


}

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

最终实现效果为:


java -jar bulk_insert.jar ./data/  

1

即可实现./data下的所有json循环遍历导入ES。


4、使用技术

1)文件遍历

2)Json解析

3)ES批量插入操作


5、遇到的坑

程序导出Jar包时候,生成jar包报错。

由于借助了Jest的源码工程,该工程是由Maven生成的。

生成jar包的时候,会一直提示:


“Java.long.ClassNotFoundException"

1

初步定位原因:是maven导致,然后了pom.xml,错误依旧。

最终解决方案:重建工程,将代码和依赖的jar包重新导入即可。


后记

死磕ES,有问题欢迎大家提问探讨!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
OAF_文件系列5_实现OAF解析XML文件javax.xml.parsers(案例)
20150729 Created By BaoXinjian 一、摘要 通过javax.xml.parsers.DocumentBuilder解析从系统系统导入的XML文件 此过程需要用到一些包方法 1.
820 0
Java使用jxl.jar包写Excel文件的最适合列宽问题基本实现
以前用jxl.jar包,读写过Excel文件。也没有注意最适合列宽的问题,但是jxl.jar没有提供最适合列宽的功能,上次用到写了一下,可以基本实现最适合列宽。 注意,这个只是基本可以实现,基本针对中文电子报表。
1006 0
fastdfs的tracker文件的配这说明
fastdfs的tracker文件的配这说明 tracker.conf
46 0
反向安装jar包到Mave本地仓库
反向安装jar包到Mave本地仓库
116 0
技能学习:学习使用node.js + vue.js,开发前端全栈网站-1.工具和本地环境
Node.js 运行环境是引领前端开发人员的“一道光”,让前端开发人员**仅**利用已掌握的 js 语言就可以实现对网站服务器环境的搭建与运行。打破了以往前后端分工合作、交流对接的惯性习惯。 相对于传统PHP、JAVA开发,Node.js 附带的npm更方便、快捷地让前端开发人员更快、更方便地使用和获取其他前端大神封装好的 js 类库和精美UI样式库,舍去不同语言和不同编码的切换过程。
212 0
Java入门 - 导读
Java 是由 Sun Microsystems 公司于1995年5月推出的高级程序设计语言。 Java 可运行于多个平台,如 Windows、Mac OS、及其他多种`UNIX`版本的系统。 本教程通过简单的实例将让大家更好的了解 Java 编程语言。
219 0
Java获取本机MAC地址
为什么写这个呢?因为前几天看见网上有采用windows命令获取局域网和广域网MAC,查了查可以直接用JDK的方法。          MAC可用于局域网验证,提高安全性。 import java.
636 0
下载后自动打开(更改IE下载文件后的默认处理方法)
笔者用IE下载RAR文件的时候,不小心将那个“在打开这种类型的文件前始终询问”前面的复选框去掉了。结果现在下载所有的RAR压缩文件不提示保存对话框,直接下载完毕后就用WinRAR打开压缩包,而其他类型的扩展名正常。
698 0
Win10系统下安装labelme,json文件批量转化
Win10系统下安装labelme,json文件批量转化一、安装环境:windows10,anaconda3,python3.6 由于框架maskrcnn需要json数据集,在没安装labelme环境和跑深度学习之前,我安装的是anaconda3,其中pyhton是3.7版本的,经网上查阅资料,经过一番查找资料,发现,原来在2019年,TensorFlow还不支持python3.7,所以,迫于无奈,我只能乖乖把python的版本退回到3.6版本,具体步骤也很简单。
2082 0
+关注
348
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载