概述Flink API中的4个层次-阿里云开发者社区

概述Flink API中的4个层次

2024-07-14 65 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 【7月更文挑战第14天】Flink的API分为4个层次：核心底层API（如ProcessFunction）、DataStream/DataSet API、Table API和SQL。

从纵向来看Flink中的API分为4个层次，从下而上，API层次越高，抽象程度越高，使用起来越方便，灵活性则会降低。

1、核心底层API

核心底层API提供了Flink的最底层的分布式计算构建块的操作API，包含了ProcessFunction、状态、时间和窗口等操作的API。

ProcessFunction是Flink提供的最具表现力的底层功能接口。Flink提供单流输入的ProcessFunction和双流输入的CoProcessFunction，能够对单个事件进行计算，也能够按照窗口对时间进行计算。

ProcessFunction提供对时间和状态的细粒度控制能力，它可以处理事件时间和处理时间两种时间概念，在时间上定义、修改触发回调函数的触发器。因此，ProcessFunction可以实现许多有状态计算中的复杂业务逻辑。

2、核心开发API （DataStream/DataSet API）

DataStream/DataSet使用Fluent风格API，提供了常见数据处理的API接口，如用户指定的各种转换形式，包括连接（Join）、聚合（Aggregation）、窗口（Window）、状态（State）等。在这些API中处理的数据类型以各自的编程语言定义为Class类（Java类或者Scala类）。同时为了提供灵活性，DataStream/DataSet中也提供了直接使用底层ProcessFunction的能力，使得一些特定的操作可以实现更低层次的抽象如DataSet API为有界数据集提供了额外的原函数（如循环/迭代）。

3、声明式DSL API

Table API是以表为中心的声明式领域专用语言（Domain Specified Language，DSL）。表是关系型数据库的概念，用在批处理中。

Table API遵循（扩展）关系模型，使用Schema定义元数据（与关系数据库中的表相似），提供Table API实现SQL操作，如select、project、join、group-by、aggregate等。Table API表达的是“应该做什么”的逻辑操作，而不是编写如何处理数据的底层代码。

此外，Table API程序还可以通过在执行之前使用SQL优化器进行优化。可以在表和DataStream/DataSet之间无缝转换，允许程序中混合使用Table API和DataStream/DataSet API。

4、结构化API

SQL是Flink的结构化API，是最高层次的计算API，与Table API基本等价，区别在于使用的方式。SQL与Table API可以混合使用，SQL可以操作Table API定义的表，Table API也能操作SQL定义的表和中间结果。

SQL对复杂逻辑的语义表达不如DataStream API，但是SQL也带来了不少好处。

缩短上线周期

传统的实现流计算的方式是通过流计算平台提供的API进行编程的，包括确定需求、实现设计、编写代码、进行本地单元测试、进行集成测试，没有问题后部署上线等流程。整个开发过程中，开发人员不光要满足业务需求，还需要关注技术实现的细节，而使用SQL的方式后，开发人员只要关注业务需求即可，技术实现的细节可以交给SQL引擎去解析、编译、优化。最终，相比传统的通过编码实现流计算的方式，上线周期可以从数天缩短为数小时。

更好地支持流计算需求的演变

随着业务需求持续不断的变化，编码方式的开发、测试、部署上线的周期不能很快的响应业务需求的变化，使用SQL则能够缩短开发、测试、部署的周期。

自动调优

查询优化器可以为用户的SQL生成最高效的执行计划。用户不需要了解它就能自动享受优化器带来的性能提升。

接口稳定

SQL拥有几十年的历史，是一个非常稳定的语言，很少有变动。所以升级引擎的版本、甚至替换成另一个引擎时，都可以做到兼容并且平滑地升级。

易于理解

SQL的学习门槛很低，很多不同行业不同领域的人都懂SQL，用SQL作为跨团队的开发语言可以大大提高效率。

在Flink1.9及以后的版本中，Flink会在API层面上统一DataStream流处理API和DataSet批处理API，DataSet API会逐渐被废弃，未来会使用DataStream API统一表达流批两种处理，作为流批统一的计算引擎，这种做法是合理的。

概述Flink API中的4个层次

1、核心底层API

2、核心开发API （DataStream/DataSet API）

3、声明式DSL API

4、结构化API

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

概述Flink API中的4个层次

1、核心底层API

2、核心开发API （DataStream/DataSet API）

3、声明式DSL API

4、结构化API

热门文章

最新文章

相关课程

相关电子书

相关实验场景