Flink实战-安装及部署

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 只需几个简单的步骤即可启动并运行Flink示例程序。

1 本地安装


只需几个简单的步骤即可启动并运行Flink示例程序。


1.1 安装:下载并启动Flink

唯一要求是装有Java 8,检查Java正确安装:


114.png

直接下载二进制包到本地并解压。


2 配置 flink-conf.yaml

jobmanager.rpc.address: 10.0.0.1 配置主节点的ip


jobmanager 主节点

taskmanager 从节点


配置. bash_profile

vim ~/.bash_profile

# Flink

export FLINK_HOME=/Users/javaedge/Downloads/soft/flink-1.17.0

export PATH=$FLINK_HOME/bin:$PATH

source ~/.bash_profile


3 启动集群


javaedge@JavaEdgedeMac-mini flink-1.17.0 % cd bin

javaedge@JavaEdgedeMac-mini bin % ./start-cluster.sh

Starting cluster.

Starting standalonesession daemon on host JavaEdgedeMac-mini.local.

Starting taskexecutor daemon on host JavaEdgedeMac-mini.local.

javaedge@JavaEdgedeMac-mini bin % jps


验证集群启动成功:

113.png



4 提交任务


先启动一个 socket 传输:

112.png

javaedge@JavaEdgedeMac-mini java % nc -lk 9527



再提交任务:


./flink run -c org.apache.flink.streaming.examples.socket.SocketWindowWordCount ../examples/streaming/SocketwindowWordCount.jar --hostname localhost --port 9527

111.png



打开控制台,可见有个运行中任务了:


18.png


17.png

16.png



任务执行结果:

15.png



5 并行度

任务执行时,将一个任务划分为多个并行子任务来执行的能力。


Flink中每个并行子任务被称为一个Task

整个任务则被称为一个Job

Flink中的并行度通过以下两种方式设置:


全局设置

使用 ExecutionEnvironment 或 StreamExecutionEnvironment 对象设置并行度,这会影响到该环境中所有算子的并行度。


final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

env.setParallelism(4);


算子级别设置

直接在算子上设置并行度,这会覆盖全局设置的并行度。


final DataStream<String> input = env.addSource(new FlinkKafkaConsumer010<>("topic", new SimpleStringSchema(), props));

input.flatMap(new MyFlatMapFunction()).setParallelism(2).print();


并行度的设置需要根据具体的场景和资源情况进行调整,过高的并行度可能会导致资源浪费和性能下降,过低的并行度可能会导致无法充分利用资源,影响任务的执行效率。


./flink run -c org.apache.flink.streaming.examples.socket.SocketWindowWordCount -p 2  ../examples/streaming/SocketwindowWordCount.jar --hostname localhost --port 9527


参考

Local Setup Tutorial

Building Flink from Source


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
129 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
4月前
|
容灾 流计算
美团 Flink 大作业部署问题之 Checkpoint 跨机房副本的制作能力如何实现
美团 Flink 大作业部署问题之 Checkpoint 跨机房副本的制作能力如何实现
|
2月前
|
Kubernetes Cloud Native 流计算
Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细 扩容缩容部署 Docker容器编排
Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细 扩容缩容部署 Docker容器编排
91 3
|
2月前
|
资源调度 分布式计算 大数据
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
117 0
|
4月前
|
容灾 流计算
美团 Flink 大作业部署问题之Checkpoint 的 metadata 文件包含什么信息
美团 Flink 大作业部署问题之Checkpoint 的 metadata 文件包含什么信息
|
4月前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
79 1
|
4月前
|
SQL Kubernetes 数据处理
实时计算 Flink版产品使用问题之如何把集群通过kubernetes进行部署
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
API C# Shell
WPF与Windows Shell完美融合:深入解析文件系统操作技巧——从基本文件管理到高级Shell功能调用,全面掌握WPF中的文件处理艺术
【8月更文挑战第31天】Windows Presentation Foundation (WPF) 是 .NET Framework 的关键组件,用于构建 Windows 桌面应用程序。WPF 提供了丰富的功能来创建美观且功能强大的用户界面。本文通过问题解答的形式,探讨了如何在 WPF 应用中集成 Windows Shell 功能,并通过具体示例代码展示了文件系统的操作方法,包括列出目录下的所有文件、创建和删除文件、移动和复制文件以及打开文件夹或文件等。
95 0
|
4月前
|
机器学习/深度学习 人工智能 运维
美团 Flink 大作业部署问题之Flink在生态技术演进上有什么主要方向
美团 Flink 大作业部署问题之Flink在生态技术演进上有什么主要方向
|
4月前
|
监控 Serverless Apache
美团 Flink 大作业部署问题之如何体现Flink在业界的影响力
美团 Flink 大作业部署问题之如何体现Flink在业界的影响力