Dataphin V3.2 - 开源Flink的计算源及项目配置

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 从V3.2版本开始,Dataphin开始支持基于开源Flink的实时研发,本文将介绍如何配置开源Flink的计算源,并将该计算源绑定到Dataphin项目中,以在Dataphin中开始实时研发

一、部署架构


image.png



说明

  • Dataphin调试、执行Flink任务时,会先将Flink任务所需要的文件打包成Jar包,上传到HDFS中,然后在启动Flink run命令将Flink任务提交到Yarn服务,因此需要Hadoop集群需要有Yarn服务,且保证Dataphin应用集群可访问HDFS Namenode上传Jar包及提交任务到Yarn服务
  • Datapin提交Flink任务到Hadoop集群的采用Per-Job模式,且仅支持Yarn资源管理。在Per-Job模式下,每个提交的Job将会启动一个Flink 集群。 Job完成后,集群将关闭,所有残留的资源(例如文件)也将被清除。 此模式可以更好地隔离资源,因为行为异常的Job不会影响任何其他Job。
  • Dataphin应用集群需要与数据源进行通信以测试数据源的连通性及获取数据源的元数据,Flink任务提交到Hadoop集群后,也需要读取或写入数据到数据源,因此需要保证数据源与Dataphin应用集群和Hadoop集群的网络可达和通畅

二、Hadoop集群的配置及准备

基于Hadoop集群(Yarn为资源管理器)在Dataphin进行Flink任务的开发,不需要特殊的配置,仅需保证网络端口可达。原则上需要开放HDFS Namenode服务、Yarn的ResourceManager、Scheduler、webapp的端口。hdfs-site.xml、core-site.xml、yarn-site.xml等配置文件可从hadoop集群上(如Cloudera Manger)上下载配置文件。


以下为最小化配置文件的样例:

📎core-site.xml

📎hdfs-site.xml

📎yarn-site.xml

三、Dataphin中Flink计算源配置说明

1. Kerberos未开启时的配置说明

image.png


2. Kerberos开启时的配置说明

image.png

3. 配置信息说明


分组

配置项

配置说明

计算引擎源基本信息

计算源类型


固定为Flink

计算源名称


在租户内的标识该计算源的名称

计算源描述

可选。计算源描述信息

集群基本信息

配置文件

可上传 Hadoop集群的配置文件:core-site.xml hdfs-site.xml yarn-site.xml

集群Kerberos

可根据集群的配置选择开启或关闭kerberos配置

Flink计算引擎配置信息

Kerberos配置方式

选择配置填写KDC Server或上传kerb5文件

KDC Server

KDC服务地址

Krb5文件

可上传krb5文件

Flink的任务队列

填写yarn的队列

CheckPoint存储状态 - 目录路径

需在hdfs上创建好存放checkpoint所需要的文件夹,如hdfs://dataphin-hadoop-cluster-00001:8020/tmp/savepoint/

Flink Kerberos

若集群开启了Kerberos,则可选择开启或关闭;若集群未开启Kerberos,则需选择关闭

Keytab File

Flink对应的Keytab文件

Principal

Flink对应的Principal


四、Demo


以下视频将向您展示如何配置开源Flink的计算源,以及在项目中绑定计算源。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
4天前
|
消息中间件 SQL Kafka
实时计算 Flink版产品使用合集之brokers可以配置多个,但是只要第1个brokers挂了任务就挂了如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
22 3
|
4天前
|
消息中间件 关系型数据库 Kafka
实时计算 Flink版产品使用合集之想要加快消费 Kafka 数据的速度,该怎么配置参数
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
17 2
|
3天前
|
SQL 数据处理 API
实时计算 Flink版产品使用合集之配置的Managed Memory不生效如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
10 0
|
3天前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之可以通过配置Oracle数据库的schema注册表来监测表结构的变化吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
12 1
|
4天前
|
SQL 存储 Java
实时计算 Flink版产品使用合集之怎么配置日志的输出格式和文件大小
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
17 1
|
4天前
|
消息中间件 关系型数据库 Java
实时计算 Flink版产品使用合集之在生产环境中配置Flink CDC,主要需要考虑什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
25 1
|
4天前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用合集之有没有什么好的配置方案
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
9 1
|
4天前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用合集之是否支持对每个表的增量快照键列进行单独配置
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
10 1
|
4天前
|
关系型数据库 MySQL 数据处理
实时计算 Flink版产品使用合集之怎样导数据使starrocks支持主键模型delete的配置
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
17 1
|
4天前
|
SQL 关系型数据库 数据处理
实时计算 Flink版产品使用合集之作业原本只配置了采集一张表,现在想增加一张表,这张新增的表将会增量采集还是重新全量采集
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
29 0

相关产品

  • 智能数据建设与治理 Dataphin