大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!

使SQL

Table\SQLAPI使SQL

SQLSQLSQLSQLSQL

使SQL

SQL使SQLSQLSQL8-1

8-1

访
访

8-13使SQL3

  • 1SQL
  • 2SQL
  • 3SQL

13FlinkDynamicTable

22MaterializedViewsSQLSQL访

SQLSQLSQL

FlinkEagerViewMaintenance

INSERTUPDATEDELETE3使INSERTUPDATEDELETEchangelogstreamSQL

FlinkContinuousQuery

使SQLFlink

  1. DynamicTableTable\SQLAPI
  2. 8-4

8-4

ContinuousQuery8-5SQLAPIFlink使

8-5SQLAPI

Flink3

  • SQLAPIFlinkSQLAPI8-5
  • SQL
  • SQLAPI

SQLFlinkSQL使使FlinkTable\SQLAPI

  • 1
  • 21min

1

pIdincomeIDpIdallID

SQLAPI8-18使GROUPBYpId使SUM

8-18使SQLAPI

// 创建数据源表
CREATE TABLE source_table (
pId BIGINT,
income BIGINT
) WITH (
...
);
// 创建数据汇表
CREATE TABLE sink_table (
pId BIGINT,
all BIGINT
) WITH (
...
);
// 执行查询
INSERT INTO sink_table
SELECT
pId
, SUM(income) as all
FROM source_table
GROUP BY pId;

SQLAPI

8-6

8-6

8-7

8-7

changelogstream8-7source_tablesource_tablesource_tableINSERT8-18SQLpIdIDpId

  • [1,5]INSERTsource_tableSQLINSERT[1,5]pId1[1,5]INSERT
  • [2,6]INSERTsource_tableINSERT[2,6]INSERT
  • [3,7]INSERTsource_tableINSERT[3,7]INSERT
  • [1,8]INSERTsource_tableINSERT[1,5][1,13]pId1[1,13]UPDATE

INSERTUPDATEFlinkUpdateQuery

IDSQLINSERTIDUPDATEUPDATE

1min

pIdincometimeIDpIdallminutesID1min1min

1min1min使SQLAPI8-19使GROUPBYpIdGROUPBYTUMBLE(row_time,INTERVAL'1'MINUTES)1min1min使SUM1minTUMBLE_START(row_time,INTERVAL'1'MINUTES)1min

8-19使SQLAPI1min

// 创建数据源表
CREATE TABLE source_table (
pId BIGINT,
income BIGINT,
time BIGINT, // 单位为毫秒
// 用于定义数据的事件时间戳
row_time AS TO_TIMESTAMP_LTZ(time, 3),
// 用于指定Watermark分配方式,最大乱序时间为5s
WATERMARK FOR row_time AS row_time - INTERVAL '5' SECOND
) WITH (
...
);
// 创建数据汇表
CREATE TABLE sink_table (
pId BIGINT,
all BIGINT,
minutes STRING
) WITH (
...
);
// 执行查询
INSERT INTO sink_table
SELECT
pId
, sum(income) as all
, TUMBLE_START(row_time, INTERVAL '1' MINUTES) as minutes
FROM source_table
GROUP BY 
pId
, TUMBLE(row_time, INTERVAL '1' MINUTES)

SQLAPI

8-8DataStreamAPITableAPISQLAPI使便8-8::HH:mm:ss

8-8

8-9SubTask

8-9

8-9source_tablesource_tablesource_tableINSERT8-19SQLpIdID1minpId1

1min[09:01:00,09:02:00)[09:02:00,09:03:00)[09:06:00,09:07:00)[09:09:00,09:10:00)1231

  • [09:01:00,09:02:00)INSERTSQLINSERTWatermark09:02:00[1,5,09:01:00]pId1[09:01:00,09:02:00)INSERT
  • [09:02:00,09:03:00)INSERTINSERTWatermark09:03:00[2,13,09:02:00]INSERT
  • [09:06:00,09:07:00)INSERTINSERTWatermark09:07:00[3,8,09:06:00][1,18,09:06:00]INSERT
  • [09:09:00,09:10:00)INSERTINSERTWatermark09:10:00[2,9,09:09:00]INSERT

INSERTFlinkAppendQuery

SQL[09:09:00,09:10:00)[09:09:00,09:10:00)SQL

SQLSQLSQLSQLINSERT

INSERTUPDATEDELETE

FlinkTable\SQLAPI3

  • Append-only
  • Retract
  • Upsert

3

Append-only

INSERTINSERTAppend-onlystream2

Retract

Retract

RetractAddMessageRetractMessageRetractINSERTDELETEUPDATE

Retract

FlinkINSERTUPDATEDELETE

  • INSERTINSERT
  • UPDATEUPDATEUPDATE
  • DELETEDELETE

8-101Retract

8-10Retract

8-10Retract+-+-

8-10SQL

  • [1,5]INSERTsource_tableSQLINSERT[1,5]INSERTINSERT+[1,5]
  • [2,6]
  • [1,7]INSERTsource_tableINSERT[1,5][1,13]pId1[1,13]UPDATEUPDATE-[1,5]+[1,12]

Retract

Upsert

Upsert

UpsertUpsertMessageDeleteMessageUpsertINSERTUPDATEDELETEUpsert

  • UPSERTINSERTUPDATEUPSERTINSERTUPDATE

Upsert

FlinkINSERTUPDATEDELETE

  • INSERTINSERT
  • UPDATEUPDATEUpsertRetractRetractUPDATEUpsertUPDATEUpsert
  • DELETEDELETE

8-111Upsert

8-11Upsert

8-11Upsert--

8-11SQL

  • [1,5]source_tableSQL[1,5]INSERT*[1,5]
  • [2,6]
  • [1,7]source_table[1,5][1,13]pIdpId1[1,13]UPDATE*[1,12]

Upsert便

SQLRetractUpsertUpsertUPDATEUpsertRetract7Upsert5

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
9天前
|
SQL 存储 Oracle
Oracle的PL/SQL定义变量和常量:数据的稳定与灵动
【4月更文挑战第19天】在Oracle PL/SQL中,变量和常量扮演着数据存储的关键角色。变量是可变的“魔术盒”,用于存储程序运行时的动态数据,通过`DECLARE`定义,可在循环和条件判断中体现其灵活性。常量则是不可变的“固定牌”,一旦设定值便保持不变,用`CONSTANT`声明,提供程序稳定性和易维护性。通过 `%TYPE`、`NOT NULL`等特性,可以更高效地管理和控制变量与常量,提升代码质量。善用两者,能优化PL/SQL程序的结构和性能。
|
28天前
|
SQL 存储 关系型数据库
一文搞懂SQL优化——如何高效添加数据
**SQL优化关键点:** 1. **批量插入**提高效率,一次性建议不超过500条。 2. **手动事务**减少开销,多条插入语句用一个事务。 3. **主键顺序插入**避免页分裂,提升性能。 4. **使用`LOAD DATA INFILE`**大批量导入快速。 5. **避免主键乱序**,减少不必要的磁盘操作。 6. **选择合适主键类型**,避免UUID或长主键导致的性能问题。 7. **避免主键修改**,保持索引稳定。 这些技巧能优化数据库操作,提升系统性能。
226 4
一文搞懂SQL优化——如何高效添加数据
|
1月前
|
消息中间件 关系型数据库 Kafka
flink cdc 数据问题之数据丢失如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
110 0
|
1月前
|
关系型数据库 MySQL Java
flink cdc 同步问题之多表数据如何同步
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
103 0
|
1月前
|
API 数据库 流计算
有大佬知道在使用flink cdc实现数据同步,如何实现如果服务停止了对数据源表的某个数据进行删除操作,重启服务之后目标表能进行对源表删除的数据进行删除吗?
【2月更文挑战第27天】有大佬知道在使用flink cdc实现数据同步,如何实现如果服务停止了对数据源表的某个数据进行删除操作,重启服务之后目标表能进行对源表删除的数据进行删除吗?
52 3
|
1月前
|
Oracle 关系型数据库 MySQL
Flink CDC产品常见问题之flink Oraclecdc 捕获19C数据时报错错如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
9天前
|
SQL Oracle 关系型数据库
Oracle的PL/SQL游标属性:数据的“导航仪”与“仪表盘”
【4月更文挑战第19天】Oracle PL/SQL游标属性如同车辆的导航仪和仪表盘,提供丰富信息和控制。 `%FOUND`和`%NOTFOUND`指示数据读取状态,`%ROWCOUNT`记录处理行数,`%ISOPEN`显示游标状态。还有`%BULK_ROWCOUNT`和`%BULK_EXCEPTIONS`增强处理灵活性。通过实例展示了如何在数据处理中利用这些属性监控和控制流程,提高效率和准确性。掌握游标属性是提升数据处理能力的关键。
|
9天前
|
SQL Oracle 安全
Oracle的PL/SQL循环语句:数据的“旋转木马”与“无限之旅”
【4月更文挑战第19天】Oracle PL/SQL中的循环语句(LOOP、EXIT WHEN、FOR、WHILE)是处理数据的关键工具,用于批量操作、报表生成和复杂业务逻辑。LOOP提供无限循环,可通过EXIT WHEN设定退出条件;FOR循环适用于固定次数迭代,WHILE循环基于条件判断执行。有效使用循环能提高效率,但需注意避免无限循环和优化大数据处理性能。掌握循环语句,将使数据处理更加高效和便捷。
|
9天前
|
SQL Oracle 关系型数据库
Oracle的PL/SQL条件控制:数据的“红绿灯”与“分岔路”
【4月更文挑战第19天】在Oracle PL/SQL中,IF语句与CASE语句扮演着数据流程控制的关键角色。IF语句如红绿灯,依据条件决定程序执行路径;ELSE和ELSIF提供多分支逻辑。CASE语句则是分岔路,按表达式值选择执行路径。这些条件控制语句在数据验证、错误处理和业务逻辑中不可或缺,通过巧妙运用能实现高效程序逻辑,保障数据正确流转,支持企业业务发展。理解并熟练掌握这些语句的使用是成为合格数据管理员的重要一环。
|
9天前
|
SQL Oracle 关系型数据库
Oracle的PL/SQL表达式:数据的魔法公式
【4月更文挑战第19天】探索Oracle PL/SQL表达式,体验数据的魔法公式。表达式结合常量、变量、运算符和函数,用于数据运算与转换。算术运算符处理数值计算,比较运算符执行数据比较,内置函数如TO_CHAR、ROUND和SUBSTR提供多样化操作。条件表达式如CASE和NULLIF实现灵活逻辑判断。广泛应用于SQL查询和PL/SQL程序,助你驾驭数据,揭示其背后的规律与秘密,成为数据魔法师。