Dataphin V3.2 - 开源Flink的计算源及项目配置

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 从V3.2版本开始,Dataphin开始支持基于开源Flink的实时研发,本文将介绍如何配置开源Flink的计算源,并将该计算源绑定到Dataphin项目中,以在Dataphin中开始实时研发

一、部署架构


image.png



说明

  • Dataphin调试、执行Flink任务时,会先将Flink任务所需要的文件打包成Jar包,上传到HDFS中,然后在启动Flink run命令将Flink任务提交到Yarn服务,因此需要Hadoop集群需要有Yarn服务,且保证Dataphin应用集群可访问HDFS Namenode上传Jar包及提交任务到Yarn服务
  • Datapin提交Flink任务到Hadoop集群的采用Per-Job模式,且仅支持Yarn资源管理。在Per-Job模式下,每个提交的Job将会启动一个Flink 集群。 Job完成后,集群将关闭,所有残留的资源(例如文件)也将被清除。 此模式可以更好地隔离资源,因为行为异常的Job不会影响任何其他Job。
  • Dataphin应用集群需要与数据源进行通信以测试数据源的连通性及获取数据源的元数据,Flink任务提交到Hadoop集群后,也需要读取或写入数据到数据源,因此需要保证数据源与Dataphin应用集群和Hadoop集群的网络可达和通畅

二、Hadoop集群的配置及准备

基于Hadoop集群(Yarn为资源管理器)在Dataphin进行Flink任务的开发,不需要特殊的配置,仅需保证网络端口可达。原则上需要开放HDFS Namenode服务、Yarn的ResourceManager、Scheduler、webapp的端口。hdfs-site.xml、core-site.xml、yarn-site.xml等配置文件可从hadoop集群上(如Cloudera Manger)上下载配置文件。


以下为最小化配置文件的样例:

📎core-site.xml

📎hdfs-site.xml

📎yarn-site.xml

三、Dataphin中Flink计算源配置说明

1. Kerberos未开启时的配置说明

image.png


2. Kerberos开启时的配置说明

image.png

3. 配置信息说明


分组

配置项

配置说明

计算引擎源基本信息

计算源类型


固定为Flink

计算源名称


在租户内的标识该计算源的名称

计算源描述

可选。计算源描述信息

集群基本信息

配置文件

可上传 Hadoop集群的配置文件:core-site.xml hdfs-site.xml yarn-site.xml

集群Kerberos

可根据集群的配置选择开启或关闭kerberos配置

Flink计算引擎配置信息

Kerberos配置方式

选择配置填写KDC Server或上传kerb5文件

KDC Server

KDC服务地址

Krb5文件

可上传krb5文件

Flink的任务队列

填写yarn的队列

CheckPoint存储状态 - 目录路径

需在hdfs上创建好存放checkpoint所需要的文件夹,如hdfs://dataphin-hadoop-cluster-00001:8020/tmp/savepoint/

Flink Kerberos

若集群开启了Kerberos,则可选择开启或关闭;若集群未开启Kerberos,则需选择关闭

Keytab File

Flink对应的Keytab文件

Principal

Flink对应的Principal


四、Demo


以下视频将向您展示如何配置开源Flink的计算源,以及在项目中绑定计算源。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
2月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
57 0
|
2月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
74 0
|
22天前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
49 9
|
2月前
|
Java Shell Maven
Flink-11 Flink Java 3分钟上手 打包Flink 提交任务至服务器执行 JobSubmit Maven打包Ja配置 maven-shade-plugin
Flink-11 Flink Java 3分钟上手 打包Flink 提交任务至服务器执行 JobSubmit Maven打包Ja配置 maven-shade-plugin
117 4
|
2月前
|
消息中间件 Java Kafka
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
49 1
|
2月前
|
消息中间件 NoSQL Kafka
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
148 0
|
4月前
|
资源调度 调度 流计算
Flink 细粒度资源管理问题之为不同的SSG配置资源如何解决
Flink 细粒度资源管理问题之为不同的SSG配置资源如何解决
|
4月前
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
7月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

相关产品

  • 智能数据建设与治理 Dataphin