【Flink on YARN + CDC 3.0】神操作!看完这篇教程,你也能成为数据流处理高手!从零开始,一步步教会你在Flink on YARN模式下如何配置Debezium CDC 3.0,让你的数据库变更数据瞬间飞起来!

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
简介: 【8月更文挑战第15天】随着Apache Flink的普及,企业广泛采用Flink on YARN部署流处理应用,高效利用集群资源。变更数据捕获(CDC)工具在现代数据栈中至关重要,能实时捕捉数据库变化并转发给下游系统处理。本文以Flink on YARN为例,介绍如何在Debezium CDC 3.0中配置MySQL连接器,实现数据流处理。首先确保YARN上已部署Flink集群,接着安装Debezium MySQL连接器并配置Kafka Connect。最后,创建Flink任务消费变更事件并提交任务到Flink集群。通过这些步骤,可以构建出从数据库变更到实时处理的无缝数据管道。

随着Apache Flink的广泛应用,越来越多的企业开始采用Flink on YARN模式来部署流处理应用,以充分利用集群资源。而在现代数据栈中,变更数据捕获(Change Data Capture,简称CDC)工具扮演着重要角色,它能够实时捕捉数据库中的变化数据,并将其转发至下游系统进行处理。本文将以部署Flink on YARN为例,探讨如何在Debezium CDC 3.0中进行相关配置,以确保数据流处理的顺利进行。

首先,假设我们已经在YARN集群上成功部署了Flink集群。接下来,为了能够使用Debezium CDC 3.0来捕获数据库变更事件并将这些事件发送给Flink进行处理,我们需要进行一系列配置。

步骤一:安装Debezium

Debezium是一个开源的分布式平台,用于流式捕获数据库的变更事件。在正式使用之前,确保Debezium已经安装并且配置正确。Debezium支持多种数据库,如MySQL、PostgreSQL等。以MySQL为例,首先需要在MySQL服务器上安装Debezium连接器。

安装MySQL连接器

# 下载Debezium MySQL连接器
wget https://repo1.maven.org/maven2/io/debezium/debezium-connector-mysql/1.6.1.Final/debezium-connector-mysql-1.6.1.Final-plugin.tar.gz

# 解压文件
tar -xzf debezium-connector-mysql-1.6.1.Final-plugin.tar.gz

# 将解压后的文件夹复制到Kafka Connect插件目录
sudo cp -r debezium-connector-mysql-1.6.1.Final /usr/share/kafka/plugins/

步骤二:配置Kafka Connect

Debezium通过Kafka Connect来捕获数据库的变更事件。因此,需要在Kafka Connect中添加Debezium连接器的配置。

配置Kafka Connect

name: mysql-debezium-source
config:
  connector.class: io.debezium.connector.mysql.MySqlSourceConnector
  tasks.max: 1
  database.hostname: localhost
  database.port: 3306
  database.user: debezium
  database.password: debezium
  database.server.id: 12345
  database.server.name: mydatabase
  database.whitelist: testdb
  database.history.kafka.bootstrap.servers: localhost:9092
  database.history.kafka.topic: schema-changes.testdb

步骤三:配置Flink任务

一旦Debezium连接器捕获到数据库的变更事件,下一步就是将这些事件导入Flink进行处理。这一步涉及到Flink任务的配置。

创建Flink任务

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;

public class FlinkDebeziumExample {
   

    public static void main(String[] args) throws Exception {
   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        KafkaSource<String> kafkaSource = KafkaSource.<String>builder()
                .setBootstrapServers("localhost:9092")
                .setTopics("testdb.public.users")
                .setGroupId("flink-consumer-group")
                .setStartingOffsets(OffsetsInitializer.earliest())
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .build();

        DataStream<String> sourceStream = env.addSource(kafkaSource)
                .assignTimestampsAndWatermarks(WatermarkStrategy.<String>forMonotonousTimestamps().build());

        sourceStream.print();

        env.execute("Flink Debezium Example");
    }
}

步骤四:启动Flink任务

最后,确保Flink集群已启动,然后提交上述Flink任务。

# 编译项目
mvn clean package

# 提交Flink任务
flink run target/flink-debezium-example-1.0.jar

通过以上步骤,我们成功地在Debezium CDC 3.0中配置了MySQL连接器,并且创建了一个简单的Flink任务来消费从Debezium接收到的变更事件。这为构建实时数据管道提供了一个坚实的基础。在实际生产环境中,还需要根据具体需求进行更详细的配置调整,例如增加错误处理逻辑、数据转换等高级功能。

综上所述,通过合理配置Debezium和Flink,我们可以实现从数据库变更事件到实时数据处理的无缝衔接,进而构建出高效可靠的数据处理流程。

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
8月前
|
Oracle 关系型数据库 Linux
【赵渝强老师】Oracle数据库配置助手:DBCA
Oracle数据库配置助手(DBCA)是用于创建和配置Oracle数据库的工具,支持图形界面和静默执行模式。本文介绍了使用DBCA在Linux环境下创建数据库的完整步骤,包括选择数据库操作类型、配置存储与网络选项、设置管理密码等,并提供了界面截图与视频讲解,帮助用户快速掌握数据库创建流程。
745 93
|
11月前
|
关系型数据库 MySQL 数据库连接
Django数据库配置避坑指南:从初始化到生产环境的实战优化
本文介绍了Django数据库配置与初始化实战,涵盖MySQL等主流数据库的配置方法及常见问题处理。内容包括数据库连接设置、驱动安装、配置检查、数据表生成、初始数据导入导出,并提供真实项目部署场景的操作步骤与示例代码,适用于开发、测试及生产环境搭建。
538 1
|
关系型数据库 MySQL Java
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
|
数据库
【YashanDB知识库】数据库一主一备部署及一主两备部署时,主备手动切换方法及自动切换配置
【YashanDB知识库】数据库一主一备部署及一主两备部署时,主备手动切换方法及自动切换配置
【YashanDB知识库】数据库一主一备部署及一主两备部署时,主备手动切换方法及自动切换配置
|
安全 Linux 网络安全
YashanDB数据库服务端SSL连接配置
YashanDB支持通过SSL连接确保数据传输安全,需在服务端生成根证书、服务器证书及DH文件,并将根证书提供给客户端以完成身份验证。服务端配置包括使用OpenSSL工具生成证书、设置SSL参数并重启数据库;客户端则需下载根证书并正确配置环境变量与`yasc_env.ini`文件。注意:启用SSL后,所有客户端必须持有根证书才能连接,且SSL与密码认证独立运行。
|
8月前
|
Ubuntu 安全 关系型数据库
安装与配置MySQL 8 on Ubuntu,包括权限授予、数据库备份及远程连接指南
以上步骤提供了在Ubuntu上从头开始设置、配置、授权、备份及恢复一个基础但完整的MySQL环境所需知识点。
997 7
|
8月前
|
缓存 Java 应用服务中间件
Spring Boot配置优化:Tomcat+数据库+缓存+日志,全场景教程
本文详解Spring Boot十大核心配置优化技巧,涵盖Tomcat连接池、数据库连接池、Jackson时区、日志管理、缓存策略、异步线程池等关键配置,结合代码示例与通俗解释,助你轻松掌握高并发场景下的性能调优方法,适用于实际项目落地。
1577 5
|
11月前
|
安全 Java 数据库
Jasypt加密数据库配置信息
本文介绍了使用 Jasypt 对配置文件中的公网数据库认证信息进行加密的方法,以提升系统安全性。主要内容包括:1. 背景介绍;2. 前期准备,如依赖导入及版本选择;3. 生成密钥并实现加解密测试;4. 在配置文件中应用加密后的密码,并通过测试接口验证解密结果。确保密码安全的同时,保障系统的正常运行。
821 3
Jasypt加密数据库配置信息
|
SQL 关系型数据库 MySQL
Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
Apache Flink CDC 3.4.0 版本正式发布!经过4个月的开发,此版本强化了对高频表结构变更的支持,新增 batch 执行模式和 Apache Iceberg Sink 连接器,可将数据库数据全增量实时写入 Iceberg 数据湖。51位贡献者完成了259次代码提交,优化了 MySQL、MongoDB 等连接器,并修复多个缺陷。未来 3.5 版本将聚焦脏数据处理、数据限流等能力及 AI 生态对接。欢迎下载体验并提出反馈!
1926 1
Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持

热门文章

最新文章