Flink实战(四) - DataSet API编程（上）

2021-12-07 383

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Flink实战(四) - DataSet API编程（上）

1 你将学到

◆ DataSet API开发概述

◆ 计数器

◆ DataSource

◆ 分布式缓存

◆ Transformation

◆ Sink

2 Data Set API 简介

Flink中的DataSet程序是实现数据集转换（例如，过滤，映射，连接，分组）的常规程序.

最初从某些Source源创建数据集（例如，通过读取文件或从本地集合创建）

结果通过sink返回，接收器可以例如将数据写入（分布式）文件或标准输出（例如命令行终端）

Flink程序可以在各种环境中运行，单机运行或嵌入其他程序中

执行可以在本地JVM中执行，也可以在集群机器上执行.

有关Flink API基本概念的介绍，请参阅本系列的上一篇

https://zhuanlan.zhihu.com/p/69372503

为了创建自己的Flink DataSet程序，鼓励从Flink程序的解剖开始，逐步添加自己的转换!

3 测试环境

4 Data Sources简介

数据源创建初始数据集，例如来自文件或Java集合。创建数据集的一般机制是在InputFormat后面抽象的

Flink附带了几种内置格式，可以从通用文件格式创建数据集。其中许多都在ExecutionEnvironment上有快捷方法。

4.1 基于文件

readTextFile（path）/ TextInputFormat

按行读取文件并将它们作为字符串返回

readTextFileWithValue（path）/ TextValueInputFormat

按行读取文件并将它们作为StringValues返回。 StringValues是可变字符串

readCsvFile（path）/ CsvInputFormat

解析逗号（或其他字符）分隔字段的文件。返回元组，案例类对象或POJO的DataSet。支持基本的java类型及其Value对应的字段类型

readFileOfPrimitives（path，delimiter）/ PrimitiveInputFormat

使用给定的分隔符解析新行（或其他char序列）分隔的原始数据类型（如String或Integer）的文件

readSequenceFile（Key，Value，path）/ SequenceFileInputFormat

创建JobConf并从类型为SequenceFileInputFormat，Key class和Value类的指定路径中读取文件，并将它们作为Tuple2 <Key，Value>返回。

4.2 基于集合

fromCollection（Iterable） - 从Iterable创建数据集。 Iterable返回的所有元素必须属于同一类型

fromCollection（Iterator） - 从迭代器创建数据集。该类指定迭代器返回的元素的数据类型

fromElements（elements：_ *） - 根据给定的对象序列创建数据集。所有对象必须属于同一类型

fromParallelCollection（SplittableIterator） - 并行地从迭代器创建数据集。该类指定迭代器返回的元素的数据类型

generateSequence（from，to） - 并行生成给定时间间隔内的数字序列。

4.3 通用

readFile（inputFormat，path）/ FileInputFormat

接受文件输入格式

createInput（inputFormat）/ InputFormat

接受通用输入格式

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

Flink实战(四) - DataSet API编程（上）

1 你将学到

2 Data Set API 简介

3 测试环境

4 Data Sources简介

4.1 基于文件

4.2 基于集合

4.3 通用

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Flink实战(四) - DataSet API编程（上）

1 你将学到

2 Data Set API 简介

3 测试环境

4 Data Sources简介

4.1 基于文件

4.2 基于集合

4.3 通用

热门文章

最新文章

相关课程

相关电子书