Flink数据源问题之读取mysql报错如何解决

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink数据源是指Apache Flink用于读取外部系统数据的接口或组件;本合集将探讨Flink数据源的类型、配置方法和最佳实践,以及在使用数据源时可能遇到的错误和解决方案。

问题一:flink sql 1.9 可以通过sql的方式 join 关联外部数据源吗?


想问一下,目前flink sql 1.9 可以通过sql的方式 join 关联外部数据源吗?

比如说通过sql DDL 定义一个Hbase的维表数据源,然后用sql join关联上。

CREATETABLEMyUserTable(

hbase_rowkey_namerowkey_type,

hbase_column_family_name1ROW<...>,

hbase_column_family_name2ROW<...>

)WITH(

'connector.type'='hbase',...

)

SELECT

tb1.xx

MyUserTable.xx

FROM

tb1

JOIN

MyUserTable ON

tb1.xx = MyUserTable.xx*来自志愿者整理的flink邮件归档


参考回答:

正好在看这篇文档,但是我想做一个csv的数据源,不知道格式怎么配置。

https://yq.aliyun.com/articles/717034


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/373768?spm=a2c6h.14164896.0.0.14f6d9dfoWFkCZ


问题二:Flink sql 支持在流式数据上使用LAG和LEAD函数吗


如何在流式数据源上使用分析函数LAG和EAD函数:

kafka输入数据如:

{"t":"2020-04-01T05:00:00Z", "id":"1", "speed":1.0}

{"t":"2020-04-01T05:05:00Z", "id":"1", "speed":2.0}

{"t":"2020-04-01T05:10:00Z", "id":"1", "speed":3.0}

{"t":"2020-04-01T05:15:00Z", "id":"1", "speed":4.0}

{"t":"2020-04-01T05:20:00Z", "id":"1", "speed":5.0}

{"t":"2020-04-01T05:25:00Z", "id":"1", "speed":6.0}

sql如下:

INSERT INTO topic_sink
SELECT
  t,
  id,
  speed,
  LAG(speed, 1) OVER w AS speed_1,
  LAG(speed, 2) OVER w AS speed_2
FROM topic_source
WINDOW w AS (
      PARTITION BY id
      ORDER BY t
)

我期望得到的结果数据是

{"t":"2020-04-01T05:00:00Z", "id":"1", "speed":1.0, "speed_1":null, "speed_2":null}

{"t":"2020-04-01T05:05:00Z", "id":"1", "speed":2.0,"speed_1":1.0, "speed_2":null}

{"t":"2020-04-01T05:10:00Z", "id":"1", "speed":3.0,"speed_1":2.0, "speed_2":1.0}

{"t":"2020-04-01T05:15:00Z", "id":"1", "speed":4.0,"speed_1":3.0, "speed_2":2.0}

{"t":"2020-04-01T05:20:00Z", "id":"1", "speed":5.0,"speed_1":4.0, "speed_2":3.0}

{"t":"2020-04-01T05:25:00Z", "id":"1", "speed":6.0",speed_1":5.0, "speed_2":4.0}

实际得到的结果数据是:

{"t":"2020-04-01T05:00:00Z", "id":"1", "speed":1.0, "speed_1":1.0, "speed_2":1.0}

{"t":"2020-04-01T05:05:00Z", "id":"1", "speed":2.0,"speed_1":2.0, "speed_2":2.0}

{"t":"2020-04-01T05:10:00Z", "id":"1", "speed":3.0,"speed_1":3.0, "speed_2":3.0}

{"t":"2020-04-01T05:15:00Z", "id":"1", "speed":4.0,"speed_1":4.0, "speed_2":4.0}

{"t":"2020-04-01T05:20:00Z", "id":"1", "speed":5.0,"speed_1":5.0, "speed_2":5.0}

{"t":"2020-04-01T05:25:00Z", "id":"1", "speed":6.0",speed_1":6.0, "speed_2":6.0}

想问一下flink sql里的LAG函数能完成我期望的计算吗?如果可以sql该如何写?


参考回答:

INSERT INTO topic_sink
SELECT
  t,
  id,
  speed,
  LAG(speed, 1, null) OVER w AS speed_1,
  LAG(speed, 2, null) OVER w AS speed_2
FROM topic_source
WINDOW w AS (
      PARTITION BY id
      ORDER BY t
)

这样应该可以


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/306833?spm=a2c6h.14164896.0.0.6c93d9dfynWHtw


问题三:flink table使用cdc读取mysql数据源报错 unknown error 1227. mysql用户也有replicarion slave 还有replication client权限,请问下这个问题还有可能是什么原因引起的呢?


flink table使用cdc读取mysql数据源报错 unknown error 1227. mysql用户也有replicarion slave 还有replication client权限,请问下这个问题还有可能是什么原因引起的呢?


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/460625?spm=a2c6h.14164896.0.0.5c71d9dfBYG7Od


问题四:linksql读取tidb全量数据的时候,没有读全,源有1000w+数据,只读了100w+,但是程序也没挂, 看日志,有这么一行,感觉是切分主键的时候乱码了, cdc源表是string类型的主键, , 这种表没读全的,一般是什么原因呢,


请问下, flinksql读取tidb全量数据的时候,没有读全,源有1000w+数据,只读了100w+,但是程序也没挂, 看日志,有这么一行,感觉是切分主键的时候乱码了, cdc源表是string类型的主键, , 这种表没读全的,一般是什么原因呢,



参考回答:

这个可以提一个issue,然后提供sql和样本数据以供复现。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/454540?spm=a2c6h.14164896.0.0.6cb9d9dfb0yj4F


问题五:flink数据sum后结果超过源数据


源数据为mysql数据,通过提取mysql数据后写入到kafka,flink接收数据做数据量统计,统计后出现统计量大于原始数据量的情况

CheckpointingMode(CheckpointingMode.EXACTLY_ONCE) 并且在数据统计之前做了去重操作!

请问有人遇到这种问题么?


参考回答:

sum之前先进行groupby去重,flink的上游会多次发生消息会导致重复计算


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/281738?spm=a2c6h.14164896.0.0.6cb9d9dfb0yj4F

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
4天前
|
NoSQL 关系型数据库 MySQL
2024Mysql And Redis基础与进阶操作系列(4-2)作者——LJS[含MySQL非空、唯一性、PRIMARY KEY、自增列/自增约束举例说明等详解步骤及常见报错问题对应的解决方法]
24MySQL非空、唯一性、PRIMARY KEY、自增列/自增约束举例说明等详解步骤及常见报错问题对应的解决方法(4-2) 学不会你来砍我!!!
|
1天前
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
|
4天前
|
NoSQL 安全 关系型数据库
2024Mysql And Redis基础与进阶操作系列(6)作者——LJS[含MySQL 多表之一对一/多;多对多;多表联合查询等详解步骤及常见报错问题所对应的解决方法]
MySQL 多表之一对一/多;多对多;多表联合之交叉连接;内连接;左、右、外、满、连接;子查询及关键字;自连接查询等详解步骤及常见报错问题所对应的解决方法
|
4天前
|
SQL NoSQL 关系型数据库
2024Mysql And Redis基础与进阶操作系列(5)作者——LJS[含MySQL DQL基本查询:select;简单、排序、分组、聚合、分组、分页等详解步骤及常见报错问题所对应的解决方法]
MySQL DQL基本查询:select;简单、排序、分组、聚合、分组、分页、INSERT INTO SELECT / FROM查询结合精例等详解步骤及常见报错问题所对应的解决方法
|
4天前
|
SQL NoSQL 关系型数据库
|
4天前
|
存储 SQL 关系型数据库
2024Mysql And Redis基础与进阶操作系列(1)作者——LJS[含MySQL的下载、安装、配置详解步骤及报错对应解决方法]
Mysql And Redis基础与进阶操作系列(1)之[MySQL的下载、安装、配置详解步骤及报错对应解决方法]
|
4天前
|
SQL 关系型数据库 MySQL
|
3天前
|
存储 SQL NoSQL
|
3天前
|
NoSQL 关系型数据库 MySQL
2024Mysql And Redis基础与进阶操作系列(8)作者——LJS[含MySQL 创建、修改、跟新、重命名、删除视图等具体详步骤;注意点及常见报错问题所对应的解决方法]
MySQL 创建、修改、跟新、重命名、删除视图等具体详步骤;举例说明注意点及常见报错问题所对应的解决方法
|
4天前
|
SQL NoSQL 关系型数据库

相关产品

  • 实时计算 Flink版