Elasticsearch批量导入本地Json文件Java实现

简介: 题记产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。而ES支持的入库格式,json格式数据会相对方便些。本文主要介绍,如何将格式化的Json文件批量插入到ES中。

1、需提前做的工作

1)设计好索引以及Mapping;


Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。

1

2)Java程序中封装好类,和Mapping设定的字段一一对应。


2、批量导入步骤分解

步骤1:本地文件格式化,统一为Json格式。

一个待导入的数据串,存成一个Json文件。


步骤2:放置在统一./data路径下。 目录结构如下示意:


    ./data

               a_01.json

               a_02.json

               a_03.json

               ...

               a_100.json

1

2

3

4

5

6

步骤3:循环遍历./data文件获取包含绝对路径的文件全名,存入linkedlist中。


步骤4:遍历linkedlist的每个路径,获取Json信息。


步骤5:使用fastjson解析Json,解析成对应设计好的类个各个匹配字段。


步骤6:借助bulk**批量曹操API接口,完成本地文件的导入。


3、核心接口实现

/*

**@brief:遍历Json,批量插入ES

**@param:空

**@return:空

*/

private static void insertBulkIndex() throws Exception {

//Json文件的存储

final String JSONFILEINPUT = ESConfig.es_json_path;

logger.info("path = " + JSONFILEINPUT);

LinkedList<String> curJsonList = FileProcess.getJsonFilePath(JSONFILEINPUT);

logger.info("size = " + curJsonList.size());


for (int i = 0; i < curJsonList.size(); ++i){

//System.out.println(" i = " + i + " " + curJsonList.get(i));

String curJsonPath = curJsonList.get(i);

ImageInfo curImageInfo = JsonParse.GetImageJson(curJsonPath);

//JsonParse.printImageJson(curImageInfo);

if (curImageInfo == null){

continue;

}

//遍历插入操作

InsertIndex (curImageInfo);

}

}


/*

**@brief:单条Json插入ES(借助了Jest封装后的API)

**@param:空

**@return:空

*/

private static void InsertIndex(AgeInfo ageInfo) throws Exception {

JestClient jestClient = JestExa.getJestClient();

JsonParse.PrintImageJson( ageInfo );


Bulk bulk = new Bulk.Builder()

.defaultIndex("age_index")

.defaultType("age_type")

.addAction(Arrays.asList(

new Index.Builder( ageInfo ).build()

)).build();

 JestResult result = jestClient.execute(bulk);

 if (result.isSucceeded()){

 System.out.println("insert success!");

 }else{

 System.out.println("insert failed");

 }


}

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

最终实现效果为:


java -jar bulk_insert.jar ./data/  

1

即可实现./data下的所有json循环遍历导入ES。


4、使用技术

1)文件遍历

2)Json解析

3)ES批量插入操作


5、遇到的坑

程序导出Jar包时候,生成jar包报错。

由于借助了Jest的源码工程,该工程是由Maven生成的。

生成jar包的时候,会一直提示:


“Java.long.ClassNotFoundException"

1

初步定位原因:是maven导致,然后了pom.xml,错误依旧。

最终解决方案:重建工程,将代码和依赖的jar包重新导入即可。


后记

死磕ES,有问题欢迎大家提问探讨!

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
打赏
0
0
0
0
581
分享
相关文章
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
怎么取消对project.private.config.json这个文件的git记录
通过以上步骤,您可以成功取消对 `project.private.config.json`文件的Git记录。这样,文件将不会被包含在未来的提交中,同时仍保留在您的工作区中。
71 28
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
30 4
解锁“分享文件”高效密码:探秘 Java 二叉搜索树算法
在信息爆炸的时代,文件分享至关重要。二叉搜索树(BST)以其高效的查找性能,为文件分享优化提供了新路径。本文聚焦Java环境下BST的应用,介绍其基础结构、实现示例及进阶优化。BST通过有序节点快速定位文件,结合自平衡树、多线程和权限管理,大幅提升文件分享效率与安全性。代码示例展示了文件插入与查找的基本操作,适用于大规模并发场景,确保分享过程流畅高效。掌握BST算法,助力文件分享创新发展。
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
396 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
3月前
|
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
131 34
Git使用教程-将idea本地Java等文件配置到gitte上【保姆级教程】
本内容详细介绍了使用Git进行版本控制的全过程,涵盖从本地仓库创建到远程仓库配置,以及最终推送代码至远程仓库的步骤。
58 0
如何在 Rocky Linux 8 上安装和配置 Elasticsearch
本文详细介绍了在 Rocky Linux 8 上安装和配置 Elasticsearch 的步骤,包括添加仓库、安装 Elasticsearch、配置文件修改、设置内存和文件描述符、启动和验证 Elasticsearch,以及常见问题的解决方法。通过这些步骤,你可以快速搭建起这个强大的分布式搜索和分析引擎。
134 5
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
这篇文章是关于Elasticsearch的学习指南,包括了解Elasticsearch、版本对应、安装运行Elasticsearch和Kibana、安装head插件和elasticsearch-ik分词器的步骤。
485 0
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
mall在linux环境下的部署(基于Docker容器),docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongodb、minio详细教程,拉取镜像、运行容器
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等