Flink批量写入mysql

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
实时计算 Flink 版,5000CU*H 3个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: Flink批量写入mysql

1.参考Flink写mysql

https://blog.csdn.net/weixin_43291055/article/details/100972694

2.新增批量写入函数

xml

<insert id="insertBatch" parameterType="java.util.List">
    insert into sku_info (sku,num) values
    <foreach collection="list" item="info" index="index" separator=",">
        (#{info.skuId}, #{info.num})
    </foreach>
</insert>

dao

void insertBatch(List<Info> infos);

3.批量写入处理,采用Flink窗口函数,countWindow

package com.jd.xq;
import com.google.common.collect.Lists;
import com.jd.xq.mapper.LineMapper;
import com.jd.xq.model.SkuInfo;
import com.jd.xq.sink.SinkSku;
import com.jd.xq.source.TestSource;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.AllWindowFunction;
import org.apache.flink.streaming.api.windowing.windows.Window;
import org.apache.flink.util.Collector;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
/**
 * @author
 * @Date 2019-08-16 15:45
 **/
public class StartJob {
    public static void main(String[] args) {
        try {
            final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
            env.enableCheckpointing(5000); // 非常关键,一定要设置启动检查点!!
           env.getConfig().setGlobalJobParameters(loadConfig("config.properties"));
            DataStream<String> text = env.addSource(new TestSource());
            DataStream stream = text.flatMap(new LineMapper());
            stream.countWindowAll(3).apply(new AllWindowFunction<SkuInfo, List<SkuInfo>, Window>() {
                @Override
                public void apply(Window window, Iterable<SkuInfo> iterable, Collector<List<SkuInfo>> collector) throws Exception {
                    ArrayList<SkuInfo> skuInfos = Lists.newArrayList(iterable);
                    if (skuInfos.size() > 0) {
                        collector.collect(skuInfos);
                    }
                }
            }).addSink(new SinkSku());
            env.execute("WordCount from Kafka data");
        } catch (Exception e) {
            System.out.println(e);
        }
    }
    public static ParameterTool loadConfig(String configFileName) throws Exception {
        try (InputStream is = StartJob.class.getClassLoader().getResourceAsStream(configFileName)) {
            return ParameterTool.fromPropertiesFile(is);
        }
    }
}

TestSource-----source(随机生成数据)

public class TestSource extends RichSourceFunction<String> {
    private volatile boolean isRunning = true;
    @Override
    public void open(Configuration parameters) throws Exception {
    }
    @Override
    public void run(SourceContext<String> sourceContext) throws Exception {
        Random random = new Random();
        while (isRunning) {
            Thread.sleep((getRuntimeContext().getIndexOfThisSubtask() + 1) * 1000);
            //String key = "类别" + (char) ('A' + random.nextInt(3));
            int sku = random.nextInt(10);
            int value = random.nextInt(10) + 1;
            String str = sku + "," + value;
            //System.out.println(str);
            sourceContext.collect(str);
        }
    }
    @Override
    public void cancel() {
        isRunning = false;
    }
}

LineMapper----数据预处理拆分

package com.jd.xq.mapper;
import com.alibaba.fastjson.JSONObject;
import com.jd.xq.model.Info;
import com.jd.xq.model.SkuInfo;
import com.jd.xq.model.TestModel;
import org.apache.flink.api.common.ExecutionConfig;
import org.apache.flink.api.common.functions.RichFlatMapFunction;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.util.Collector;
/**
 * @author duanxiaoqiu
 * @Date 2019-09-10 20:50
 **/
public class LineMapper extends RichFlatMapFunction<String, SkuInfo> {
    @Override
    public void open(Configuration parameters) {
        ExecutionConfig executionConfig = getRuntimeContext().getExecutionConfig();
        ParameterTool params = (ParameterTool) executionConfig.getGlobalJobParameters();
        //System.out.println(params.get("xq.name"));
    }
    public void flatMap(String s, Collector<SkuInfo> collector) {
        try {
            String[] arr = s.split(",");
            SkuInfo model = new SkuInfo();
            model.setSkuId(arr[0]);
            model.setNum(Integer.parseInt(arr[1]));
            //incr(model.getSku(), model.getNum());
            System.out.println(JSONObject.toJSONString(model));
            collector.collect(model);
        } catch (Exception e) {
            System.out.println();
        }
    }
}

sink,批量写mysql

public class SinkSku extends RichSinkFunction<List<SkuInfo>> {
    private SkuMapper skuMapper;
    @Override
    public void open(Configuration parameters) {
        try {
            skuMapper = SkuDao.getInstance();
        } catch (Exception e) {
            System.out.println("====open====");
        }
    }
    @Override
    public void invoke(List<SkuInfo> value, Context context) {
        try {
            System.out.println(JSONObject.toJSONString(value));
            skuMapper.insertBatch(value);
        } catch (Exception e) {
            System.out.println("====invoke e:" + e);
        }
    }
}

4.核心代码解析

stream.countWindowAll(3).apply(new AllWindowFunction<SkuInfo, List<SkuInfo>, Window>() {
    @Override
    public void apply(Window window, Iterable<SkuInfo> iterable, Collector<List<SkuInfo>> collector) throws Exception {
        ArrayList<SkuInfo> skuInfos = Lists.newArrayList(iterable);
        if (skuInfos.size() > 0) {
            collector.collect(skuInfos);
        }
    }
}).addSink(new SinkSku());

主要利用了FLink的window函数,将三个数据划分一组,每批次插入3个数据,即:按照个数划分窗口

当然也可以按照其他划分方式,比如:按照每分钟批次,即:按照时间划分窗口

stream.timeWindowAll(Time.seconds(2)).apply(new AllWindowFunction<SkuInfo, List<SkuInfo>, TimeWindow>() {
    @Override
    public void apply(TimeWindow window, Iterable<SkuInfo> iterable, Collector<List<SkuInfo>> collector) {
        ArrayList<SkuInfo> skuInfos = null;
        try {
            skuInfos = Lists.newArrayList(iterable);
            if (skuInfos.size() > 0) {
                collector.collect(skuInfos);
            }
        } catch (Exception e) {
            System.out.println("==window e:" + e);
        }
    }
}).addSink(new SinkSku());

参考

https://blog.csdn.net/aA518189/article/details/85250713


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
打赏
0
0
0
0
8
分享
相关文章
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
本教程展示如何使用Flink CDC YAML快速构建从MySQL到Kafka的流式数据集成作业,涵盖整库同步和表结构变更同步。无需编写Java/Scala代码或安装IDE,所有操作在Flink CDC CLI中完成。首先准备Flink Standalone集群和Docker环境(包括MySQL、Kafka和Zookeeper),然后通过配置YAML文件提交任务,实现数据同步。教程还介绍了路由变更、写入多个分区、输出格式设置及上游表名到下游Topic的映射等功能,并提供详细的命令和示例。最后,包含环境清理步骤以确保资源释放。
433 2
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
SpringBoot 通过集成 Flink CDC 来实时追踪 MySql 数据变动
通过详细的步骤和示例代码,您可以在 SpringBoot 项目中成功集成 Flink CDC,并实时追踪 MySQL 数据库的变动。
855 43
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
534 0
Flink CDC MySQL同步MySQL错误记录
在使用Flink CDC同步MySQL数据时,常见的错误包括连接错误、权限错误、表结构变化、数据类型不匹配、主键冲突和
307 17
实时计算 Flink版产品使用问题之使用CTAS同步MySQL到Hologres时出现的时区差异,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
实时计算 Flink版产品使用问题之同步MySQL多张表的过程中,内存释放依赖于什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
本文详细介绍了在 MySQL 中创建数据库和表的方法。包括安装 MySQL、用命令行和图形化工具创建数据库、选择数据库、创建表(含数据类型介绍与选择建议、案例分析、最佳实践与注意事项)以及查看数据库和表的内容。文章专业、严谨且具可操作性,对数据管理有实际帮助。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂

推荐镜像

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等