文档备案控制台

开发者社区云原生文章正文

Flink on Yarn三部曲之二：部署和设置

2022-12-03 412

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文是《Flink on Yarn三部曲》系列的第二篇，前面已经为部署做好了准备，现在可以一起来部署和启动Yarn环境了

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码)： https://github.com/zq2599/blog_demos

本文是《Flink on Yarn三部曲》系列的第二篇，上一篇《Flink on Yarn三部曲之一：准备工作》已将所需的机器和文件准备完毕，可以部署CDH和Flink了；

全文链接

执行ansible脚本部署CDH和Flink(ansible电脑)

进入ansible电脑的~/playbooks目录，经过上一篇的准备工作，该目录下应该是下图这些内容：

在这里插入图片描述

检查ansible远程操作CDH服务器是否正常，执行命令ansible deskmini -a "free -m"，正常情况下显示CDH服务器的内存信息，如下图：

在这里插入图片描述

执行命令开始部署：ansible-playbook cm6-cdh5-flink1.7-single-install.yml
整个部署过程涉及在线安装、传文件等耗时的操作，因此请耐心等待（半小时左右），如果部署期间出错退出（例如网络问题），只需重复执行上述命令即可，ansible保证了操作的幂等性；
部署成功如下图所示：

在这里插入图片描述

重启CDH服务器

由于修改了selinux和swap的设置，需要重启操作系统才能生效，因此请重启CDH服务器；

执行ansible脚本启动CDH服务(ansible电脑)

等待CDH服务器重启成功；
登录ansible电脑，进入~/playbooks目录；
执行初始化数据库和启动CDH的脚本：ansible-playbook cdh-single-start.yml
启动完成输出如下信息：

在这里插入图片描述

ssh登录CDH服务器，执行此命令观察CDH服务的启动情况：tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log，看到下图红框中的内容时，表示启动完成，可以用浏览器登录了：

在这里插入图片描述

设置(浏览器操作)

现在CDH服务已经启动了，可以通过浏览器来操作：
浏览器访问：http://192.168.50.134:7180 ，如下图，账号密码都是admin：

在这里插入图片描述

一路next，在选择版本页面选择60天体验版：

在这里插入图片描述

选择主机页面可见CDH服务器（deskmini）：

在这里插入图片描述

在选择CDH版本的页面，请选择下图红框中的5.16.2-1：

在这里插入图片描述

进入安装Parcel的页面，由于提前上传了离线parcle包，因此下载进度瞬间变成百分之百，此时请等待分配、解压、激活的完成：

在这里插入图片描述

接下来有一些推荐操作，这里选择如下图红框，即可跳过：

在这里插入图片描述

接下来是选择服务的页面，我选择了自定义服务，然后选择了HDFS、YARN、Zookeeper这三项，可以满足运行Flink的需要：

在这里插入图片描述

在选择主机的页面，都选择CDH服务器：

在这里插入图片描述

接下来是数据库设置的页面，您填写的内容必须与下图保持一致，即主机名为localhost，Activity Monitor的数据库、用户、密码都是amon，Reports Manager的数据库、用户、密码都是rman，这些内容在ansible脚本中已经固定了，此处的填写必须保持一致：

在这里插入图片描述

在设置参数的页面，请按照您的硬盘实际情况设置，我这里/home目录下空间充足，因此存储位置都改为/home目录下：

在这里插入图片描述

等待服务启动：

在这里插入图片描述

各服务启动完成：

在这里插入图片描述

YARN设置

默认的YARN参数是非常保守的，需要做一些设置才能顺利执行Flink任务：
点下图红框位置，进入YARN管理页：

在这里插入图片描述

如下图所示，检查参数yarn.nodemanager.resource.cpu-vcores的值，该值必须大于1，否则提交Flink任务后YARN不分配资源执行任务，（如果您的CDH服务器是虚拟机，当CPU只有单核时，则此参数就会被设置为1，解决办法是先提升虚拟机CPU核数，再来修改此参数）：

在这里插入图片描述

yarn.scheduler.minimum-allocation-mb：单个容器可申请的最小内存，我这里设置为1G
yarn.scheduler.maximum-allocation-mb：单个容器可申请的最大内存，我这里设置为8G
yarn.nodemanager.resource.memory-mb：节点最大可用内存，我这里设置为8G
上述三个参数的值，是基于我的CDH服务器有32G内存的背景，请您按照自己硬件资源自行调整；
设置完毕后重启YARN服务，操作如下图所示：

在这里插入图片描述

至此，部署和设置都已完成，Flink on Yarn的环境已经可用了，在下一篇文章中，我们就在此环境提交Flink任务，体验Flink on Yarn；

欢迎关注阿里云开发者社区博客：程序员欣宸

学习路上，你不孤单，欣宸原创一路相伴...

文章标签：

实时计算 Flink版

容器

流计算

资源调度

网络安全

数据安全/隐私保护

程序员

数据库

存储

开发者

关键词：

实时计算 Flink版设置

实时计算 Flink版Yarn

实时计算 Flink版部署

实时计算 Flink版yarn部署

Yarn部署

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

程序员欣宸

目录

相关文章

武子康

|

消息中间件分布式计算大数据

大数据-123 - Flink 并行度相关概念全局、作业、算子、Slot并行度 Flink并行度设置与测试

大数据-123 - Flink 并行度相关概念全局、作业、算子、Slot并行度 Flink并行度设置与测试

武子康

648 0 0

众所周知

|

消息中间件资源调度关系型数据库

如何在Flink on YARN环境中配置Debezium CDC 3.0，以实现实时捕获数据库变更事件并将其传输到Flink进行处理

本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0，以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤，为构建实时数据管道提供了详细指导。

众所周知

809 9 9

武子康

|

Kubernetes Cloud Native 流计算

Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细扩容缩容部署 Docker容器编排

Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细扩容缩容部署 Docker容器编排

武子康

466 3 3

武子康

|

消息中间件分布式计算大数据

大数据-128 - Flink 并行度设置细节详解全局、作业、算子、Slot

大数据-128 - Flink 并行度设置细节详解全局、作业、算子、Slot

武子康

1320 0 0

武子康

|

资源调度分布式计算大数据

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

武子康

562 0 0

嘟嘟嘟嘟嘟嘟

|

机器学习/深度学习人工智能运维

美团 Flink 大作业部署问题之Flink在生态技术演进上有什么主要方向

美团 Flink 大作业部署问题之Flink在生态技术演进上有什么主要方向

嘟嘟嘟嘟嘟嘟

247 0 0

嘟嘟嘟嘟嘟嘟

|

监控 Serverless Apache

美团 Flink 大作业部署问题之如何体现Flink在业界的影响力

美团 Flink 大作业部署问题之如何体现Flink在业界的影响力

嘟嘟嘟嘟嘟嘟

172 0 0

尹正杰

|

资源调度分布式计算 Hadoop

YARN(Hadoop操作系统)的架构

本文详细解释了YARN（Hadoop操作系统）的架构，包括其主要组件如ResourceManager、NodeManager和ApplicationMaster的作用以及它们如何协同工作来管理Hadoop集群中的资源和调度作业。

尹正杰

885 3 3

YARN(Hadoop操作系统)的架构

尹正杰

|

资源调度分布式计算 Hadoop

使用YARN命令管理Hadoop作业

本文介绍了如何使用YARN命令来管理Hadoop作业，包括查看作业列表、检查作业状态、杀死作业、获取作业日志以及检查节点和队列状态等操作。

尹正杰

731 1 1

使用YARN命令管理Hadoop作业

土木林森

|

资源调度分布式计算算法

【揭秘Yarn调度秘籍】打破资源分配的枷锁，Hadoop Yarn权重调度全攻略！

【8月更文挑战第24天】在大数据处理领域，Hadoop Yarn 是一种关键的作业调度与集群资源管理工具。它支持多种调度器以适应不同需求，默认采用FIFO调度器，但可通过引入基于权重的调度算法来提高资源利用率。该算法根据作业或用户的权重值决定资源分配比例，权重高的可获得更多计算资源，特别适合多用户共享环境。管理员需在Yarn配置文件中启用特定调度器（如CapacityScheduler），并通过设置队列权重来实现资源的动态调整。合理配置权重有助于避免资源浪费，确保集群高效运行，满足不同用户需求。

土木林森

340 3 3

热门文章

最新文章

换npm yarn的源让install超时去死吧

你的数据安全么？Hadoop再曝安全漏洞| 黑客利用Hadoop Yarn资源管理系统未授权访问漏洞进行攻击

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

Yarn Clinet模式运行spark报错问题

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

Spark On YARN内存分配

不可不知的资源管理调度器Hadoop Yarn

Spark on Yarn集群模式搭建及测试

npm、yarn、pnpm 如何删除缓存文件?

Hadoop多用户资源管理–Fair Scheduler介绍与配置（Yarn）

活动预告｜6月13日Apache Flink Meetup·香港站

Flink程序员开发利器本地化WebUI生成

在docker中玩flink时候记录一些组合命令

在Docker跑通Flink分布式版本的WordCount

使用Docker快速部署Flink分布式集群

Flink Watermark和时间语义

14个Flink SQL性能优化实践分享

Flink API的4个层次

实时计算 Flink版产品使用合集之如何批量读取Kafka数据

实时计算 Flink版产品使用合集之如何指定FlinkYarnSession启动的properties文件存放位置

相关课程

更多

Apache Flink 入门到实战 - Flink开源社区出品

实时计算 Flink 版产品入门与实操

开源 Flink 极速上手教程

Hadoop 分布式资源管理框架 YARN

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Flink峰会 - 李佳林

Flink峰会 - 徐榜江

Flink CDC Meetup PPT - 龚中强

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

基于Flink+Kafka实现订单评论实时分析

下一篇

开通oss服务