一、部署架构
说明:
- Dataphin调试、执行Flink任务时,会先将Flink任务所需要的文件打包成Jar包,上传到HDFS中,然后在启动Flink run命令将Flink任务提交到Yarn服务,因此需要Hadoop集群需要有Yarn服务,且保证Dataphin应用集群可访问HDFS Namenode上传Jar包及提交任务到Yarn服务
- Datapin提交Flink任务到Hadoop集群的采用Per-Job模式,且仅支持Yarn资源管理。在Per-Job模式下,每个提交的Job将会启动一个Flink 集群。 Job完成后,集群将关闭,所有残留的资源(例如文件)也将被清除。 此模式可以更好地隔离资源,因为行为异常的Job不会影响任何其他Job。
- Dataphin应用集群需要与数据源进行通信以测试数据源的连通性及获取数据源的元数据,Flink任务提交到Hadoop集群后,也需要读取或写入数据到数据源,因此需要保证数据源与Dataphin应用集群和Hadoop集群的网络可达和通畅
二、Hadoop集群的配置及准备
基于Hadoop集群(Yarn为资源管理器)在Dataphin进行Flink任务的开发,不需要特殊的配置,仅需保证网络端口可达。原则上需要开放HDFS Namenode服务、Yarn的ResourceManager、Scheduler、webapp的端口。hdfs-site.xml、core-site.xml、yarn-site.xml等配置文件可从hadoop集群上(如Cloudera Manger)上下载配置文件。
以下为最小化配置文件的样例:
三、Dataphin中Flink计算源配置说明
1. Kerberos未开启时的配置说明
2. Kerberos开启时的配置说明
3. 配置信息说明
分组 |
配置项 |
配置说明 |
计算引擎源基本信息 |
计算源类型 |
固定为Flink |
计算源名称 |
在租户内的标识该计算源的名称 |
|
计算源描述 |
可选。计算源描述信息 |
|
集群基本信息 |
配置文件 |
可上传 Hadoop集群的配置文件:core-site.xml hdfs-site.xml yarn-site.xml |
集群Kerberos |
可根据集群的配置选择开启或关闭kerberos配置 |
|
Flink计算引擎配置信息 |
Kerberos配置方式 |
选择配置填写KDC Server或上传kerb5文件 |
KDC Server |
KDC服务地址 |
|
Krb5文件 |
可上传krb5文件 |
|
Flink的任务队列 |
填写yarn的队列 |
|
CheckPoint存储状态 - 目录路径 |
需在hdfs上创建好存放checkpoint所需要的文件夹,如hdfs://dataphin-hadoop-cluster-00001:8020/tmp/savepoint/ |
|
Flink Kerberos |
若集群开启了Kerberos,则可选择开启或关闭;若集群未开启Kerberos,则需选择关闭 |
|
Keytab File |
Flink对应的Keytab文件 |
|
Principal |
Flink对应的Principal |
四、Demo
以下视频将向您展示如何配置开源Flink的计算源,以及在项目中绑定计算源。