Elasticsearch批量导入本地Json文件Java实现

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 本文主要介绍,如何将格式化的Json文件批量插入到ES中。

题记

产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。

互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。

而ES支持的入库格式,json格式数据会相对方便些。

本文主要介绍,如何将格式化的Json文件批量插入到ES中。

1、需提前做的工作

1)设计好索引以及Mapping;

Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。

2)Java程序中封装好类,和Mapping设定的字段一一对应。

2、批量导入步骤分解

步骤1:本地文件格式化,统一为Json格式。
一个待导入的数据串,存成一个Json文件。

步骤2:放置在统一./data路径下。 目录结构如下示意:

     ./data
                a_01.json
                a_02.json
                a_03.json
                ...
                a_100.json

步骤3:循环遍历./data文件获取包含绝对路径的文件全名,存入linkedlist中。

步骤4:遍历linkedlist的每个路径,获取Json信息。

步骤5:使用fastjson解析Json,解析成对应设计好的类个各个匹配字段。

步骤6:借助bulk**批量曹操API接口,完成本地文件的导入。

3、核心接口实现

/*
**@brief:遍历Json,批量插入ES
**@param:空
**@return:空
*/
 private static void insertBulkIndex() throws Exception {
//Json文件的存储
final String JSONFILEINPUT = ESConfig.es_json_path;
logger.info("path = " + JSONFILEINPUT);
LinkedList<String> curJsonList = FileProcess.getJsonFilePath(JSONFILEINPUT);
logger.info("size = " + curJsonList.size());

for (int i = 0; i < curJsonList.size(); ++i){
//System.out.println(" i = " + i + " " + curJsonList.get(i));
String curJsonPath = curJsonList.get(i);
ImageInfo curImageInfo = JsonParse.GetImageJson(curJsonPath);
//JsonParse.printImageJson(curImageInfo);
if (curImageInfo == null){
continue;
}
//遍历插入操作
InsertIndex (curImageInfo);
}
}

/*
**@brief:单条Json插入ES(借助了Jest封装后的API)
**@param:空
**@return:空
*/
private static void InsertIndex(AgeInfo ageInfo) throws Exception {
JestClient jestClient = JestExa.getJestClient();
JsonParse.PrintImageJson( ageInfo );

Bulk bulk = new Bulk.Builder()
.defaultIndex("age_index")
.defaultType("age_type")
.addAction(Arrays.asList(
new Index.Builder( ageInfo ).build()
)).build();
  JestResult result = jestClient.execute(bulk);
  if (result.isSucceeded()){
  System.out.println("insert success!");
  }else{
  System.out.println("insert failed");
  }

}

最终实现效果为:

java -jar bulk_insert.jar ./data/  

即可实现./data下的所有json循环遍历导入ES。

4、使用技术

1)文件遍历
2)Json解析
3)ES批量插入操作

5、遇到的坑

程序导出Jar包时候,生成jar包报错。
由于借助了Jest的源码工程,该工程是由Maven生成的。
生成jar包的时候,会一直提示:

“Java.long.ClassNotFoundException"

初步定位原因:是maven导致,然后了pom.xml,错误依旧。
最终解决方案:重建工程,将代码和依赖的jar包重新导入即可。

后记

死磕ES,有问题欢迎大家提问探讨!


作者:铭毅天下
转载请标明出处,原文地址:
http://blog.csdn.net/laoyang360/article/details/75452953

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
1天前
|
IDE Java 编译器
使用Java分割PDF文件
使用Java分割PDF文件
7 1
|
1天前
|
XML JSON Java
老程序员分享:JAVA对象转换JSON
老程序员分享:JAVA对象转换JSON
|
1天前
|
存储 监控 Java
深入探索Java BIO与NIO输入输出模型:基于文件复制和socket通信
深入探索Java BIO与NIO输入输出模型:基于文件复制和socket通信
4 0
|
1天前
|
XML Java 定位技术
详尽分享经纬坐标(BLH)数据创建.kml文件小工具设计Java版
详尽分享经纬坐标(BLH)数据创建.kml文件小工具设计Java版
|
2天前
|
搜索推荐 Java 数据库
Java中的ElasticSearch集成与实践
Java中的ElasticSearch集成与实践
|
2天前
|
Java API 开发者
如何在Java中实现高效的文件读写
如何在Java中实现高效的文件读写
|
2天前
|
Java 机器人 程序员
Java中的文件I/O操作:流、读写和NIO详解
Java中的文件I/O操作:流、读写和NIO详解
|
2天前
|
Java 测试技术 数据库
【单文件版本】java SpringBoot 切换不同的运行环境(生产环境、开发环境、测试环境)SpringBoot配置多个不同运营环境
【单文件版本】java SpringBoot 切换不同的运行环境(生产环境、开发环境、测试环境)SpringBoot配置多个不同运营环境
9 0
|
2天前
|
Java 机器人 程序员
Java中的线程通信:wait、notify与Condition详解
Java中的线程通信:wait、notify与Condition详解
|
1天前
|
监控 Java 调度
Java并发编程:深入理解线程池
【6月更文挑战第26天】在Java并发编程的世界中,线程池是提升应用性能、优化资源管理的关键组件。本文将深入探讨线程池的内部机制,从核心概念到实际应用,揭示如何有效利用线程池来处理并发任务,同时避免常见的陷阱和错误实践。通过实例分析,我们将了解线程池配置的策略和对性能的影响,以及如何监控和维护线程池的健康状况。
6 1