Flink批量写入mysql

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
实时计算 Flink 版,5000CU*H 3个月
简介: Flink批量写入mysql

1.参考Flink写mysql

https://blog.csdn.net/weixin_43291055/article/details/100972694

2.新增批量写入函数

xml

<insert id="insertBatch" parameterType="java.util.List">
    insert into sku_info (sku,num) values
    <foreach collection="list" item="info" index="index" separator=",">
        (#{info.skuId}, #{info.num})
    </foreach>
</insert>

dao

void insertBatch(List<Info> infos);

3.批量写入处理,采用Flink窗口函数,countWindow

package com.jd.xq;
import com.google.common.collect.Lists;
import com.jd.xq.mapper.LineMapper;
import com.jd.xq.model.SkuInfo;
import com.jd.xq.sink.SinkSku;
import com.jd.xq.source.TestSource;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.AllWindowFunction;
import org.apache.flink.streaming.api.windowing.windows.Window;
import org.apache.flink.util.Collector;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
/**
 * @author
 * @Date 2019-08-16 15:45
 **/
public class StartJob {
    public static void main(String[] args) {
        try {
            final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
            env.enableCheckpointing(5000); // 非常关键,一定要设置启动检查点!!
           env.getConfig().setGlobalJobParameters(loadConfig("config.properties"));
            DataStream<String> text = env.addSource(new TestSource());
            DataStream stream = text.flatMap(new LineMapper());
            stream.countWindowAll(3).apply(new AllWindowFunction<SkuInfo, List<SkuInfo>, Window>() {
                @Override
                public void apply(Window window, Iterable<SkuInfo> iterable, Collector<List<SkuInfo>> collector) throws Exception {
                    ArrayList<SkuInfo> skuInfos = Lists.newArrayList(iterable);
                    if (skuInfos.size() > 0) {
                        collector.collect(skuInfos);
                    }
                }
            }).addSink(new SinkSku());
            env.execute("WordCount from Kafka data");
        } catch (Exception e) {
            System.out.println(e);
        }
    }
    public static ParameterTool loadConfig(String configFileName) throws Exception {
        try (InputStream is = StartJob.class.getClassLoader().getResourceAsStream(configFileName)) {
            return ParameterTool.fromPropertiesFile(is);
        }
    }
}

TestSource-----source(随机生成数据)

public class TestSource extends RichSourceFunction<String> {
    private volatile boolean isRunning = true;
    @Override
    public void open(Configuration parameters) throws Exception {
    }
    @Override
    public void run(SourceContext<String> sourceContext) throws Exception {
        Random random = new Random();
        while (isRunning) {
            Thread.sleep((getRuntimeContext().getIndexOfThisSubtask() + 1) * 1000);
            //String key = "类别" + (char) ('A' + random.nextInt(3));
            int sku = random.nextInt(10);
            int value = random.nextInt(10) + 1;
            String str = sku + "," + value;
            //System.out.println(str);
            sourceContext.collect(str);
        }
    }
    @Override
    public void cancel() {
        isRunning = false;
    }
}

LineMapper----数据预处理拆分

package com.jd.xq.mapper;
import com.alibaba.fastjson.JSONObject;
import com.jd.xq.model.Info;
import com.jd.xq.model.SkuInfo;
import com.jd.xq.model.TestModel;
import org.apache.flink.api.common.ExecutionConfig;
import org.apache.flink.api.common.functions.RichFlatMapFunction;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.util.Collector;
/**
 * @author duanxiaoqiu
 * @Date 2019-09-10 20:50
 **/
public class LineMapper extends RichFlatMapFunction<String, SkuInfo> {
    @Override
    public void open(Configuration parameters) {
        ExecutionConfig executionConfig = getRuntimeContext().getExecutionConfig();
        ParameterTool params = (ParameterTool) executionConfig.getGlobalJobParameters();
        //System.out.println(params.get("xq.name"));
    }
    public void flatMap(String s, Collector<SkuInfo> collector) {
        try {
            String[] arr = s.split(",");
            SkuInfo model = new SkuInfo();
            model.setSkuId(arr[0]);
            model.setNum(Integer.parseInt(arr[1]));
            //incr(model.getSku(), model.getNum());
            System.out.println(JSONObject.toJSONString(model));
            collector.collect(model);
        } catch (Exception e) {
            System.out.println();
        }
    }
}

sink,批量写mysql

public class SinkSku extends RichSinkFunction<List<SkuInfo>> {
    private SkuMapper skuMapper;
    @Override
    public void open(Configuration parameters) {
        try {
            skuMapper = SkuDao.getInstance();
        } catch (Exception e) {
            System.out.println("====open====");
        }
    }
    @Override
    public void invoke(List<SkuInfo> value, Context context) {
        try {
            System.out.println(JSONObject.toJSONString(value));
            skuMapper.insertBatch(value);
        } catch (Exception e) {
            System.out.println("====invoke e:" + e);
        }
    }
}

4.核心代码解析

stream.countWindowAll(3).apply(new AllWindowFunction<SkuInfo, List<SkuInfo>, Window>() {
    @Override
    public void apply(Window window, Iterable<SkuInfo> iterable, Collector<List<SkuInfo>> collector) throws Exception {
        ArrayList<SkuInfo> skuInfos = Lists.newArrayList(iterable);
        if (skuInfos.size() > 0) {
            collector.collect(skuInfos);
        }
    }
}).addSink(new SinkSku());

主要利用了FLink的window函数,将三个数据划分一组,每批次插入3个数据,即:按照个数划分窗口

当然也可以按照其他划分方式,比如:按照每分钟批次,即:按照时间划分窗口

stream.timeWindowAll(Time.seconds(2)).apply(new AllWindowFunction<SkuInfo, List<SkuInfo>, TimeWindow>() {
    @Override
    public void apply(TimeWindow window, Iterable<SkuInfo> iterable, Collector<List<SkuInfo>> collector) {
        ArrayList<SkuInfo> skuInfos = null;
        try {
            skuInfos = Lists.newArrayList(iterable);
            if (skuInfos.size() > 0) {
                collector.collect(skuInfos);
            }
        } catch (Exception e) {
            System.out.println("==window e:" + e);
        }
    }
}).addSink(new SinkSku());

参考

https://blog.csdn.net/aA518189/article/details/85250713


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之如何创建mysql临时表
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版产品使用问题之使用CTAS同步MySQL到Hologres时出现的时区差异,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
SQL 关系型数据库 MySQL
实时数仓 Hologres操作报错合集之Flink CTAS Source(Mysql) 表字段从可空改为非空的原因是什么
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
2月前
|
SQL 关系型数据库 MySQL
“震撼揭秘!Flink CDC如何轻松实现SQL Server到MySQL的实时数据同步?一招在手,数据无忧!”
【8月更文挑战第7天】随着大数据技术的发展,实时数据同步变得至关重要。Apache Flink作为高性能流处理框架,在实时数据处理领域扮演着核心角色。Flink CDC(Change Data Capture)组件的加入,使得数据同步更为高效。本文介绍如何使用Flink CDC实现从SQL Server到MySQL的实时数据同步,并提供示例代码。首先确保SQL Server启用了CDC功能,接着在Flink环境中引入相关连接器。通过定义源表与目标表,并执行简单的`INSERT INTO SELECT`语句,即可完成数据同步。
140 1
|
2月前
|
SQL 存储 关系型数据库
实时计算 Flink版产品使用问题之同步MySQL多张表的过程中,内存释放依赖于什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用问题之连接到MySQL的从库时遇到其他服务也连接到了从库,该如何处理
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之MySQL到MySOL的批量实时同步该如何操作
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
SQL Oracle 关系型数据库
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
本篇教程将展示如何使用 Flink CDC 构建实时数据湖,并处理分库分表合并同步的场景。
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
|
5月前
|
NoSQL 关系型数据库 MySQL
实时计算 Flink版操作报错之同步MySQL分库分表500张表报连接超时,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
SQL 消息中间件 关系型数据库
技术解析|Doris Connector 结合 Flink CDC 实现 MySQL 分库分表 Exactly Once 精准接入
本文主要介绍了 Flink CDC 分库分表怎么实时同步,以及其结合 Apache Doris Flink Connector 最新版本整合的 Flink 2PC 和 Doris Stream Load 2PC 的机制及整合原理、使用方法等。
技术解析|Doris Connector 结合 Flink CDC 实现 MySQL 分库分表 Exactly Once 精准接入
下一篇
无影云桌面