Flink（七）【输出算子（Sink）】-阿里云开发者社区

前言

今天是我写博客的第 200 篇，恍惚间两年过去了，现在已经是大三的学长了。仍然记得两年前第一次写博客的时候，当时学的应该是 Java 语言，菜的一批，写了就删，怕被人看到丢脸。当时就想着自己一年之后，两年之后能学到什么水平，什么是 JDBC、什么是 MVC、SSM，在当时都是特别好奇的东西，不过都在后来的学习中慢慢接触到，并且好多已经烂熟于心了。

那，今天我在畅想一下，一年后的今天，我又学到了什么水平？能否达到三花聚顶、草木山石皆可为码的超凡入圣的境界？拿没拿到心仪的 offer？和那个心动过的女孩相处怎么样了？哈哈哈哈哈

输出算子（Sink）

学完了 Flink 在不同执行环境（本地测试环境和集群环境）下的多种读取（多种数据源）和转换操作（多种转换算子），最后就是输出操作了。

1、连接到外部系统

Flink 1.12 之前，Sink 算子是通过调用 DataStream 的 addSink 方法来实现的：

stream.addSink(new SinkFunction(...));

从 Flink 1.12 开始，Flink 重构了 Sink 架构：

stream.sinkTo(...)

查看 Flink 支持的连接器

需要我们自己导入依赖，比如上面的 Kfaka 和 DataGen 我们之前使用的时候都导入过相关依赖，需要知道，有的是只支持source，有的只支持sink，有的全都支持。

 <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-datagen</artifactId>
            <version>${flink.version}</version>
        </dependency>

2、输出到文件

Flink 专门提供了一个流式文件系统的连接器：FileSink，为批处理和流处理提供了一个统一的 Sink，它可以将分区文件写入 Flink支持的文件系统。

它的主要操作是将数据写入桶（buckets），每个桶中的数据都可以分割成一个个大小有限的分区文件，这样一来就实现真正意义上的分布式文件存储。我们可以通过各种配置来控制“分桶”的操作；默认的分桶方式是基于时间的，我们每小时写入一个新的桶。换句话说，每个桶内保存的文件，记录的都是 1 小时的输出数据。

FileSink 支持行编码（Row-encoded）和批量编码（Bulk-encoded，比如 Parquet）格式。这两种不同的方式都有各自的构建器（builder），调用方法也非常简单，可以直接调用 FileSink 的静态方法：

行编码：FileSink.forRowFormat（basePath，rowEncoder）。

批量编码：FileSink.forBulkFormat（basePath，bulkWriterFactory）。

在创建行或批量编码 Sink 时，我们需要传入两个参数，用来指定存储桶的基本路径（basePath）和数据的编码逻辑（rowEncoder 或 bulkWriterFactory）。

package com.lyh.sink;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.serialization.SimpleStringEncoder;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.connector.source.util.ratelimit.RateLimiterStrategy;
import org.apache.flink.configuration.MemorySize;
import org.apache.flink.connector.datagen.source.DataGeneratorSource;
import org.apache.flink.connector.datagen.source.GeneratorFunction;
import org.apache.flink.connector.file.sink.FileSink;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.filesystem.OutputFileConfig;
import org.apache.flink.streaming.api.functions.sink.filesystem.bucketassigners.DateTimeBucketAssigner;
import org.apache.flink.streaming.api.functions.sink.filesystem.rollingpolicies.DefaultRollingPolicy;
import java.time.Duration;
import java.time.ZoneId;
/**
 * @author 刘xx
 * @version 1.0
 * @date 2023-11-18 9:51
 */
public class SinkFile {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(2);
        // 必须开启 检查点 不然一直都是 .inprogress
        env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE);
        DataGeneratorSource<String> dataGeneratorSource = new DataGeneratorSource<String>(
                new GeneratorFunction<Long, String>() {
            @Override
            public String map(Long value) throws Exception {
                return "Number:"+value;
            }
        },
            Long.MAX_VALUE,
            RateLimiterStrategy.perSecond(10), // 每s 10条
            Types.STRING
        );
        DataStreamSource<String> dataGen = env.fromSource(dataGeneratorSource, WatermarkStrategy.noWatermarks(), "data-generate");
        // todo 输出到文件系统
        FileSink<String> fileSink = FileSink.
                // 泛型方法 需要和输出结果的泛型保持一致
                <String>forRowFormat(
                new Path("D:/Desktop"),    // 指定输出路径 可以是 hdfs:// 路径
                new SimpleStringEncoder<>("UTF-8")) // 指定编码
                .withOutputFileConfig(OutputFileConfig.builder()
                        .withPartPrefix("lyh")
                        .withPartSuffix(".log")
                        .build())
                // 按照目录分桶 一个小时一个目录(这里的时间格式别改为分钟 会报错: flink Relative path in absolute URI:)
                .withBucketAssigner(new DateTimeBucketAssigner<>("yyyy-MM-dd HH", ZoneId.systemDefault()))
                // 设置文件滚动策略-时间或者大小 10s 或 1KB 或 5min内没有新数据写入 滚动一次
                // 滚动的时候 文件就会更名为我们设定的格式(前缀)不再写入
                .withRollingPolicy(
                        DefaultRollingPolicy.builder()
                                .withRolloverInterval(Duration.ofSeconds(10L))  // 10s
                                .withMaxPartSize(new MemorySize(1024)) // 1KB
                                .withInactivityInterval(Duration.ofMinutes(5))  // 5min
                                .build()
                )
                .build();
        dataGen.sinkTo(fileSink);
        env.execute();
    }
}

这里我们创建了一个简单的文件 Sink，通过.withRollingPolicy()方法指定了一个“滚动策略”。“滚动”的概念在日志文件的写入中经常遇到：因为文件会有内容持续不断地写入，所以我们应该给一个标准，到什么时候就开启新的文件，将之前的内容归档保存。也就是说，上面的代码设置了在以下 3 种情况下，我们就会滚动分区文件：

⚫ 至少包含 10 秒的数据

⚫ 最近 5 分钟没有收到新的数据

⚫ 文件大小已达到 1 KB

通过 withOutputFileConfig()方法指定了输出的文件名前缀和后缀。

需要特别注意的就是一定要开启检查点，否则我们的数据一直都是正在写入的状态（具体原因后面学习到检查点的时候会详细说）。运行结果：

3、输出到 Kafka

需要添加 Kafka 依赖（之前导入过了）
启动 Kafka
编写示例代码

package com.lyh.sink;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.connector.base.DeliveryGuarantee;
import org.apache.flink.connector.kafka.sink.KafkaRecordSerializationSchema;
import org.apache.flink.connector.kafka.sink.KafkaSink;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.kafka.clients.producer.ProducerConfig;
/**
 * @author 刘xx
 * @version 1.0
 * @date 2023-11-18 11:20
 */
public class SinkKafka {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 如果是 精准一次 必须开启 checkpoint
        env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE);
        SingleOutputStreamOperator<String> sensorDS = env.socketTextStream("localhost", 9999);
        KafkaSink<String> kafkaSink = KafkaSink.<String>builder()
                // 指定 kafka 的地址和端口
                .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092")
                // 指定序列化器 我们是发送方 所以我们是生产者
                .setRecordSerializer(
                        KafkaRecordSerializationSchema.<String>builder()
                                .setTopic("like")
                                .setValueSerializationSchema(new SimpleStringSchema())
                                .build()
                )
                // 写到 kafka 的一致性级别: 精准一次 / 至少一次
                // 如果是精准一次
                //  1.必须开启检查点 env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE)
                //  2.必须设置事务的前缀
                //  3.必须设置事务的超时时间: 大于 checkpoint间隔 小于 max 15分钟
                .setDeliveryGuarantee(DeliveryGuarantee.EXACTLY_ONCE)
                .setTransactionalIdPrefix("lyh-")
                .setProperty(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG,10*60*1000+"")
                .build();
        sensorDS.sinkTo(kafkaSink);
        env.execute();
    }
}

启动 kafka 并开启一个消费者：

kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic like

运行结果：

需要特别注意的三点：

如果是精准一次

1.必须开启检查点 env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE)

2.必须设置事务的前缀

3.必须设置事务的超时时间: 大于 checkpoint间隔小于 max 15分钟

自定义序列化器

我们上面用的自带的序列化器，但是如果我们有 key 的话，就需要自定义序列化器了，替换上面的代码：

.setRecordSerializer(
        /**
         * 如果要指定写入 kafka 的key 就需要自定义序列化器
         * 实现一个接口 重写序列化方法
         * 指定key 转为 bytes[]
         * 指定value 转为 bytes[]
         * 返回一个 ProducerRecord(topic名,key,value)对象
         */
        new KafkaRecordSerializationSchema<String>() {
            @Nullable
            @Override
            // ProducerRecord<byte[], byte[]> 返回一个生产者消息,key,value 分别对应两个字节数组
            public ProducerRecord<byte[], byte[]> serialize(String element, KafkaSinkContext context, Long timestamp) {
                String[] datas = element.split(",");
                byte[] key = datas[0].getBytes(StandardCharsets.UTF_8);
                byte[] value = element.getBytes(StandardCharsets.UTF_8);
                return new ProducerRecord<>("like",key,value);
            }
        }
)

运行结果：

4、输出到 MySQL

添加依赖（1.17版本的依赖需要指定仓库才能找到，因为阿里云和默认的maven仓库是没有的）：

<dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-jdbc</artifactId>
            <version>1.17-SNAPSHOT</version>
        </dependency>
<dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>8.0.31</version>
        </dependency>
....
    <repositories>
        <repository>
            <id>apache-snapshots</id>
            <name>apache snapshots</name>
            <url>https://repository.apache.org/content/repositories/snapshots/</url>
        </repository>
    </repositories>

创建表格

编写代码，将输入的数据行分隔为对象参数，每行数据生成一个对象进行处理。

package com.lyh.sink;
import com.lyh.bean.WaterSensor;
import function.WaterSensorFunction;
import org.apache.flink.connector.jdbc.JdbcConnectionOptions;
import org.apache.flink.connector.jdbc.JdbcExecutionOptions;
import org.apache.flink.connector.jdbc.JdbcSink;
import org.apache.flink.connector.jdbc.JdbcStatementBuilder;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.SinkFunction;
import java.sql.PreparedStatement;
import java.sql.SQLException;
/**
 * @author 刘xx
 * @version 1.0
 * @date 2023-11-18 12:32
 */
public class SinkMySQL {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        SingleOutputStreamOperator<WaterSensor> sensorDS = env.socketTextStream("localhost", 9999)
                .map(new WaterSensorFunction()); //输入进来的数据自动转为 WaterSensor类型
        /**
         * todo 写入 mysql
         * 1.这里需要用旧的sink写法：addSink
         * 2.JDBC的4个参数
         *   (1) 执行的sql语句
         *   (2) 对占位符进行填充
         *   (3) 执行选项  -> 攒批,重试
         *   (4) 连接选项 -> driver,username,password,url
         */
        SinkFunction<WaterSensor> jdbcSink = JdbcSink.sink("insert into flink.ws values(?,?,?)",
                // 指定 sql 中占位符的值
                new JdbcStatementBuilder<WaterSensor>() {
                    @Override
                    public void accept(PreparedStatement stmt, WaterSensor sensor) throws SQLException {
                        // 占位符从 1 开始
                        stmt.setString(1, sensor.getId());
                        stmt.setLong(2, sensor.getTs());
                        stmt.setInt(3, sensor.getVc());
                    }
                }, JdbcExecutionOptions.builder()
                        .withMaxRetries(3)  //最多重试3次(不包括第一次,共4次)
                        .withBatchSize(100) //每收集100条记录进行一次写入
                        .withBatchIntervalMs(3000)  // 批次3s(即使没有达到100条记录,只要过了3s JDBCSink也会进行记录的写入),这有助于确保数据及时写入，而不是无限期地等待批处理大小达到。
                        .build()
                , new JdbcConnectionOptions.JdbcConnectionOptionsBuilder()
                        .withUrl("jdbc:mysql://localhost:3306/flink?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=UTF-8")
                        .withDriverName("com.mysql.cj.jdbc.Driver")
                        .withUsername("root")
                        .withPassword("Yan1029.")
                        // mysql 默认8小时不使用连接就主动断开连接
                        .withConnectionCheckTimeoutSeconds(60) // 重试连接直接的间隔,上面我们设置最多重试3次,每次间隔60s
                        .build()
        );
        sensorDS.addSink(jdbcSink);
        env.execute();
    }
}

查询结果：

5、自定义 Sink 输出

与 Source 类似，Flink 为我们提供了通用的 SinkFunction 接口和对应的 RichSinkDunction抽象类，只要实现它，通过简单地调用 DataStream 的.addSink()方法就可以自定义写入任何外部存储。

这里我们自定义实现一个向 HBase 中插入数据的 Sink。

注意：这里只是做一个简单的 Demo，下面的代码不难发现，我们只是对 nosq:student 表下的 info:name 进行了两次的覆盖。如果要实现复杂的处理功能，需要对数据类型进行定义，因为 HBase 的数据是按列存储的，所以对于复杂的 Hbase 表，我们难以通过 Java bean 来插入数据。而且，一般经常用的连接器，Flink 大部分已经提供了，开发中我们一般也很少自定义 Sink 输出。

package com.lyh.sink;
import com.lyh.utils.HBaseConnection;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.RichSinkFunction;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;
import java.nio.charset.StandardCharsets;
/**
 * @author 刘xx
 * @version 1.0
 * @date 2023-11-18 15:59
 */
public class SinkCustomHBase {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        env.fromElements("tom","bob").addSink(new RichSinkFunction<String>() {
            public Connection con;
            @Override
            public void open(Configuration parameters) throws Exception {
                super.open(parameters);
                con = HBaseConnection.getConnection("hadoop102:2181");
            }
            @Override
            public void invoke(String value, Context context) throws Exception {
                super.invoke(value, context);
                Table table = con.getTable(TableName.valueOf("nosql","student"));
                Put put = new Put("1001".getBytes(StandardCharsets.UTF_8));
                put.addColumn("info".getBytes(StandardCharsets.UTF_8)
                ,"name".getBytes(StandardCharsets.UTF_8),
                        value.getBytes(StandardCharsets.UTF_8));
                table.put(put);
                table.close();
            }
            @Override
            public void close() throws Exception {
                super.close();
                HBaseConnection.close();
            }
        });
        env.execute();
    }
}

这里用到一个简单的连接 HBase 的工具类：

package com.lyh.utils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import java.io.IOException;
/**
 * @author 刘xx
 * @version 1.0
 * @date 2023-11-18 16:04
 */
public class HBaseConnection {
    private static Connection connection;
    public static Connection getConnection(String hosts) throws IOException {
        Configuration conf = new Configuration();
        conf.set("hbase.zookeeper.quorum", hosts);
        conf.setInt("hbase.rpc.timeout", 10000); // 设置最大超时 10 s
        connection = ConnectionFactory.createConnection(conf);
        return connection;
    }
    public static void close() throws IOException {
        if (connection!=null)
            connection.close();
    }
}

Flink（七）【输出算子（Sink）】

前言

输出算子（Sink）

1、连接到外部系统

2、输出到文件

3、输出到 Kafka

4、输出到 MySQL

5、自定义 Sink 输出

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Flink（七）【输出算子（Sink）】

前言

输出算子（Sink）

1、连接到外部系统

2、输出到文件

3、输出到 Kafka

4、输出到 MySQL

5、自定义 Sink 输出

热门文章

最新文章

相关课程

相关电子书

相关实验场景