Flink cdc 2.4 在使用Flink sql的方式 读mysql,对于结果是聚合函数类型的sql,如何过滤回撤流,只输出最终的结果呢?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在使用 Flink CDC 2.4 和 Flink SQL 读取 MySQL 数据时,如果结果涉及聚合函数类型的 SQL,并希望过滤回撤流(retract stream),只输出最终的结果,可以通过以下方法实现:
Flink 在处理聚合操作时,默认会生成回撤流(retract stream)。回撤流包含两种类型的消息: - INSERT/UPDATE_AFTER:表示新增或更新后的数据。 - DELETE/UPDATE_BEFORE:表示删除或更新前的数据。
为了只输出最终的结果,需要过滤掉 DELETE
和 UPDATE_BEFORE
类型的消息,仅保留 INSERT
和 UPDATE_AFTER
类型的消息。
changelog-producer
参数Paimon 表支持通过 changelog-producer
参数控制增量数据的产生机制。如果需要过滤回撤流并只输出最终结果,可以将 changelog-producer
设置为 lookup
或 full-compaction
。具体配置如下:
CREATE TABLE MyTable (
product_id BIGINT,
price DOUBLE,
sales BIGINT,
PRIMARY KEY (product_id) NOT ENFORCED
) WITH (
'merge-engine' = 'aggregation',
'fields.price.aggregate-function' = 'max',
'fields.sales.aggregate-function' = 'sum',
'changelog-producer' = 'lookup' -- 或 'full-compaction'
);
lookup
模式:通过查找表中的最新状态来生成最终结果。full-compaction
模式:通过对全量数据进行压缩来生成最终结果。这两种模式都可以确保输出的流中只包含最终的聚合结果,而不会包含回撤消息。
如果某些字段不需要处理回撤消息,可以通过设置 fields.${field_name}.ignore-retract
参数来忽略回撤消息。例如:
WITH (
'fields.price.ignore-retract' = 'true',
'fields.sales.ignore-retract' = 'true'
)
此配置会确保指定字段在处理过程中忽略回撤消息,从而只输出最终的聚合结果。
INSERT INTO
输出到结果表在 Flink SQL 中,可以通过 INSERT INTO
将聚合结果写入目标表。如果目标表是 MySQL 表,可以利用 ON DUPLICATE KEY UPDATE
语句来合并数据。示例如下:
INSERT INTO mysql_result_table
SELECT
product_id,
MAX(price) AS max_price,
SUM(sales) AS total_sales
FROM mysql_source_table
GROUP BY product_id;
在此过程中,MySQL 表会自动处理主键冲突,并更新对应的数据。
SUM
支持回撤,但 MAX
、MIN
等函数不支持。因此,在设计 SQL 时需注意选择合适的聚合函数。通过上述方法,您可以有效过滤回撤流并只输出最终的聚合结果。关键步骤包括: 1. 配置 changelog-producer
参数为 lookup
或 full-compaction
。 2. 忽略不必要的回撤消息(通过 ignore-retract
参数)。 3. 使用 INSERT INTO
将结果写入目标表,并利用 MySQL 的 ON DUPLICATE KEY UPDATE
机制合并数据。
这些方法能够帮助您在 Flink CDC 场景下高效处理聚合结果,同时避免回撤流对最终输出的影响。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。