开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

各位大佬,对于 Interval Join 未匹配上的数据如何旁路输出呢?

如题

展开
收起
游客3oewgrzrf6o5c 2022-07-03 17:45:32 368 0
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,可以使用阿里云的数据存储和计算服务DataHub来实现未匹配上的数据旁路输出。

    具体步骤如下:

    1. 在DataHub中创建一个新的Topic用于存储未匹配上的数据。

    2. 在Interval Join中添加一个新的match_failure_output配置项,指定未匹配上的数据输出到DataHub中的哪个Topic。

    set match_failure_output=DatahubOutput(
        "https://dh-cn-hangzhou.aliyuncs.com",
        "<accessKeyId>",
        "<accessKeySecret>",
        "<projectName>",
        "<topicName>",
        "<shardId>"
    )
    
    1. 设置DataHubOutput的相关参数,包括DataHub的Endpoint、AccessKeyID、AccessKeySecret、ProjectName、TopicName和ShardId。

    2. 执行Interval Join,将未匹配上的数据输出到DataHub中。

    SELECT *
    FROM table1
    JOIN table2
    ON table1.key = table2.key
    WITHIN INTERVAL 1 MINUTE
    MATCH_INTERVAL (table1.ts, table2.ts)
    UNMATCHED_ONLY
    INSERT INTO result_table
    
    1. 在DataHub中查看未匹配上的数据,并进行后续处理。
    2023-08-22 16:45:08
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
对 2000 多亿条数据做一次 group by 需要多久? 立即下载
对2000多亿条数据做一次Group By 需要多久 立即下载
低代码开发师(初级)实战教程 立即下载

相关实验场景

更多