Spring Batch

简介: # 背景介绍 一直以来,open source的项目和社区为企业级应用提供了大量的web-based和SOA messaging-based的框架,而对批处理(batch processing)关注的较少,因为缺少标准和可重用的批处理框架,导致企业内部出现了大量的一次性的(one-off)和闭门造车(in-house)的批处理解决方案(1688的task就是典型代表)。 鉴于此,[Spri

背景介绍

一直以来,open source的项目和社区为企业级应用提供了大量的web-based和SOA messaging-based的框架,而对批处理(batch processing)关注的较少,因为缺少标准和可重用的批处理框架,导致企业内部出现了大量的一次性的(one-off)和闭门造车(in-house)的批处理解决方案(1688的task就是典型代表)。

鉴于此,SpringSource埃森哲公司联手致力于改变此状况,结合埃森哲在批处理上的架构经验和SpringSource的技术优势,Spring Batch应运而生,它标准化了批处理的处理流程,框架和工具,为企业提供了一个标准的,健壮的批处理解决方案。

一段时间以后,JCP发现这个Spring Batch做的不错哦,我们干脆把它变成整个Java社区的standard吧,就这样用一个JSR-352把Spring Batch给收编了。其实这种开源社区反哺JCP的事情早已经不是第一次了,想想当年的Hibernate之于JPA,Jersey之于JAX-RS,都是一样一样的,不过有标准总比没标准好,对于开发者最直接的好处就是减少学习和开发成本,不用重复造轮子。

核心概念

领域概念

batch1

如上图所示,JobLancher启动job,一个job包含若干step,每个step又包含一个ItemReader(读数据),ItemProcessor(处理数据),和ItemWriter(输出数据),job的元数据和运行状态则存储在JobRepository中。

运行时概念

batch2

Job的一次完整运行称为一个JobInstance,由JobParameter区分(Spring认为相同的Job不应该多次运行),即如果JobParameter相同则为同一个Job,而一次运行如果中途失败或者抛异常,再次运行仍为一个JobInstance,而其中的每次运行称为一个JobExecution。
执行一个step称为StepExecution
关系如下:
Job 1->n JobInstance 1->n JobExecution 1->n StepExecution
JobExecution和StepExecution各包含一个ExecutionContext,其中存储了key-value对,可以用来存储运行状态。

深入浅出

Batch NameSpace

在Spring中我们需要使用Spring Batch的扩展标签,需要我们在配置文件中,加入Batch的namespace,如下:

<beans:beans xmlns="http://www.springframework.org/schema/batch"
    xmlns:beans="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
http://www.springframework.org/schema/beans
http://www.springframework.org/schema/beans/spring-beans.xsd
http://www.springframework.org/schema/batch
http://www.springframework.org/schema/batch/spring-batch-2.2.xsd">
    <job id="ioSampleJob">
        <step id="step1">
            <tasklet>
                <chunk reader="itemReaderRef" processor="itemProcessorRef" writer="itemWriterRef" commit-interval="10" />
            </tasklet>
        </step>
    </job>
</beans:beans>

Chunk

以Chunk为单位的处理方式,就是从ItemRader中一次读取一条item数据,然后让ItemProcessor进行处理,处理后的item会在内存中暂存累积,当达到commit-interval指定的数值是,整个Chunk会通过ItemWriter进行写出(写到文件或数据库),顺利完成后,transaction被提交。
batch4

用一段代码简单表示上面的执行过程就是:

    List items = new Arraylist();
    for(int i = 0; i < commitInterval; i++){
        Object item = itemReader.read()
        Object processedItem = itemProcessor.process(item);
        items.add(processedItem);
    }
    itemWriter.write(items);

Tasklet

Chunk并不是Step唯一的运行方式,有些场景可能不需要这种read,process,write的三段式操作,例如通常在批处理中会产生临时文件,这种临时文件在job运行完后需要被删除,此时我们就可以简单的用一个tasklet来做清理文件的工作。创建一个TaskletStep,我们只需要写成<tasklet ref="deleteFileTasklet" />

注意在之间不能出现标签。

JobParameters

JobInstance = Job + JobParameters,JobParameters主要有两个作用:
1、用来向JobInstance运行时,提供参数。
2、用来鉴别JobInstance,JobInstance是根据不同的参数来区分的,同一个JobInstance不能被多次启动。
延迟绑定参数,Spring的Bean默认是singleton,也就是只有在Spring container启动时被实例化一次,这种Bean的参数只能被set一次,如果我们希望Bean的参数能够动态的从JobPatameters中获取,我们需要将Bean的scope设置为step。

    <bean id="customWriter" class="com.mkyong.writers.CustomWriter" scope="step">
        <property name="startDate" value="#{jobParameters['startDate']}" />
    </bean>

Spring Batch + Quartz实例

见附件

参考

JSR-352: http://download.oracle.com/otndocs/jcp/batch-1_0-fr-spec/
Spring Batch 参考手册:http://docs.spring.io/spring-batch/reference/pdf/spring-batch-reference.pdf
实例原型:http://www.mkyong.com/spring-batch/spring-batch-and-quartz-scheduler-example/
其它: http://jamie-wang.iteye.com/blog/1876320

目录
相关文章
|
2月前
|
监控 Java 数据处理
【Spring云原生】Spring Batch:海量数据高并发任务处理!数据处理纵享新丝滑!事务管理机制+并行处理+实例应用讲解
【Spring云原生】Spring Batch:海量数据高并发任务处理!数据处理纵享新丝滑!事务管理机制+并行处理+实例应用讲解
|
2月前
|
存储 Java 关系型数据库
Spring Batch学习记录及示例项目代码
Spring Batch学习记录及示例项目代码
|
2月前
|
Java 大数据 数据库
【Spring底层原理高级进阶】Spring Batch清洗和转换数据,一键处理繁杂数据!Spring Batch是如何实现IO流优化的?本文详解!
【Spring底层原理高级进阶】Spring Batch清洗和转换数据,一键处理繁杂数据!Spring Batch是如何实现IO流优化的?本文详解!
|
3月前
|
存储 Java 调度
Spring Batch轻量级批处理实战
Spring Batch轻量级批处理实战
45 0
|
7月前
|
XML Java 大数据
Spring Batch:处理大数据和批量任务的解决方案
Spring Batch:处理大数据和批量任务的解决方案
208 0
|
11月前
|
SQL 消息中间件 JavaScript
使用Spring Batch进行批量处理
在Java后端开发中,批量处理是一个非常常见的需求。例如,我们需要从数据库中读取大量数据,对这些数据进行处理,然后将处理后的结果写回到数据库中。这时候,使用Spring Batch框架可以帮助我们快速地实现批量处理的功能。
248 0
BXA
|
12月前
|
存储 SQL 缓存
Spring Batch批处理框架优化实践
Spring Batch是一种用于批处理的框架基于Spring Framework开发,通过读取大量的数据、处理数据和写入大量数据来满足各种类型的企业级批处理需求。Spring Batch可以很好地处理大量数据,并且提供了丰富的可扩展组件,业务逻辑与框架层的一系列处理步骤的集成也比较简单。Spring Batch可以很好地支持程序员针对大量的数据,编写代码来执行规范的操作序列,提高开发效率,降低了对于数据库等系统资源访问的影响。
BXA
247 0
|
XML JSON Java
Spring Batch 批处理框架,真心强呀!! 下
Spring Batch 批处理框架,真心强呀!! 下
|
消息中间件 JavaScript 小程序
Spring Batch 批处理框架,真心强呀!! 上
Spring Batch 批处理框架,真心强呀!! 上
|
存储 SQL druid
批处理框架 Spring Batch 这么强,你真的会用吗?
批处理框架 Spring Batch 这么强,你真的会用吗?