备案控制台

开发者社区云原生文章正文

Flink on Yarn三部曲之二：部署和设置

2022-12-03 295

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 本文是《Flink on Yarn三部曲》系列的第二篇，前面已经为部署做好了准备，现在可以一起来部署和启动Yarn环境了

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码)： https://github.com/zq2599/blog_demos

本文是《Flink on Yarn三部曲》系列的第二篇，上一篇《Flink on Yarn三部曲之一：准备工作》已将所需的机器和文件准备完毕，可以部署CDH和Flink了；

全文链接

执行ansible脚本部署CDH和Flink(ansible电脑)

进入ansible电脑的~/playbooks目录，经过上一篇的准备工作，该目录下应该是下图这些内容：

在这里插入图片描述

检查ansible远程操作CDH服务器是否正常，执行命令ansible deskmini -a "free -m"，正常情况下显示CDH服务器的内存信息，如下图：

在这里插入图片描述

执行命令开始部署：ansible-playbook cm6-cdh5-flink1.7-single-install.yml
整个部署过程涉及在线安装、传文件等耗时的操作，因此请耐心等待（半小时左右），如果部署期间出错退出（例如网络问题），只需重复执行上述命令即可，ansible保证了操作的幂等性；
部署成功如下图所示：

在这里插入图片描述

重启CDH服务器

由于修改了selinux和swap的设置，需要重启操作系统才能生效，因此请重启CDH服务器；

执行ansible脚本启动CDH服务(ansible电脑)

等待CDH服务器重启成功；
登录ansible电脑，进入~/playbooks目录；
执行初始化数据库和启动CDH的脚本：ansible-playbook cdh-single-start.yml
启动完成输出如下信息：

在这里插入图片描述

ssh登录CDH服务器，执行此命令观察CDH服务的启动情况：tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log，看到下图红框中的内容时，表示启动完成，可以用浏览器登录了：

在这里插入图片描述

设置(浏览器操作)

现在CDH服务已经启动了，可以通过浏览器来操作：
浏览器访问：http://192.168.50.134:7180 ，如下图，账号密码都是admin：

在这里插入图片描述

一路next，在选择版本页面选择60天体验版：

在这里插入图片描述

选择主机页面可见CDH服务器（deskmini）：

在这里插入图片描述

在选择CDH版本的页面，请选择下图红框中的5.16.2-1：

在这里插入图片描述

进入安装Parcel的页面，由于提前上传了离线parcle包，因此下载进度瞬间变成百分之百，此时请等待分配、解压、激活的完成：

在这里插入图片描述

接下来有一些推荐操作，这里选择如下图红框，即可跳过：

在这里插入图片描述

接下来是选择服务的页面，我选择了自定义服务，然后选择了HDFS、YARN、Zookeeper这三项，可以满足运行Flink的需要：

在这里插入图片描述

在选择主机的页面，都选择CDH服务器：

在这里插入图片描述

接下来是数据库设置的页面，您填写的内容必须与下图保持一致，即主机名为localhost，Activity Monitor的数据库、用户、密码都是amon，Reports Manager的数据库、用户、密码都是rman，这些内容在ansible脚本中已经固定了，此处的填写必须保持一致：

在这里插入图片描述

在设置参数的页面，请按照您的硬盘实际情况设置，我这里/home目录下空间充足，因此存储位置都改为/home目录下：

在这里插入图片描述

等待服务启动：

在这里插入图片描述

各服务启动完成：

在这里插入图片描述

YARN设置

默认的YARN参数是非常保守的，需要做一些设置才能顺利执行Flink任务：
点下图红框位置，进入YARN管理页：

在这里插入图片描述

如下图所示，检查参数yarn.nodemanager.resource.cpu-vcores的值，该值必须大于1，否则提交Flink任务后YARN不分配资源执行任务，（如果您的CDH服务器是虚拟机，当CPU只有单核时，则此参数就会被设置为1，解决办法是先提升虚拟机CPU核数，再来修改此参数）：

在这里插入图片描述

yarn.scheduler.minimum-allocation-mb：单个容器可申请的最小内存，我这里设置为1G
yarn.scheduler.maximum-allocation-mb：单个容器可申请的最大内存，我这里设置为8G
yarn.nodemanager.resource.memory-mb：节点最大可用内存，我这里设置为8G
上述三个参数的值，是基于我的CDH服务器有32G内存的背景，请您按照自己硬件资源自行调整；
设置完毕后重启YARN服务，操作如下图所示：

在这里插入图片描述

至此，部署和设置都已完成，Flink on Yarn的环境已经可用了，在下一篇文章中，我们就在此环境提交Flink任务，体验Flink on Yarn；

欢迎关注阿里云开发者社区博客：程序员欣宸

学习路上，你不孤单，欣宸原创一路相伴...

文章标签：

实时计算 Flink版

容器

流计算

资源调度

网络安全

数据安全/隐私保护

程序员

数据库

存储

开发者

关键词：

实时计算 Flink版设置

实时计算 Flink版Yarn

实时计算 Flink版部署

实时计算 Flink版yarn部署

Yarn部署

相关实践学习

基于Hologres轻松玩转一站式实时仓库

本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。

Linux入门到精通

本套课程是从入门开始的Linux学习课程，适合初学者阅读。由浅入深案例丰富，通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员，只要能够坚持把所有章节都学完，也一定会受益匪浅。

程序员欣宸

目录

相关文章

众所周知

|

4月前

|

消息中间件资源调度关系型数据库

如何在Flink on YARN环境中配置Debezium CDC 3.0，以实现实时捕获数据库变更事件并将其传输到Flink进行处理

本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0，以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤，为构建实时数据管道提供了详细指导。

众所周知

267 9 9

武子康

|

5月前

|

消息中间件分布式计算大数据

大数据-128 - Flink 并行度设置细节详解全局、作业、算子、Slot

大数据-128 - Flink 并行度设置细节详解全局、作业、算子、Slot

武子康

253 0 0

武子康

|

5月前

|

消息中间件分布式计算大数据

大数据-123 - Flink 并行度相关概念全局、作业、算子、Slot并行度 Flink并行度设置与测试

大数据-123 - Flink 并行度相关概念全局、作业、算子、Slot并行度 Flink并行度设置与测试

武子康

282 0 0

武子康

|

5月前

|

资源调度分布式计算大数据

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

武子康

190 0 0

武子康

|

5月前

|

Kubernetes Cloud Native 流计算

Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细扩容缩容部署 Docker容器编排

Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细扩容缩容部署 Docker容器编排

武子康

156 3 3

尹正杰

|

6月前

|

分布式计算资源调度 Hadoop

在YARN集群上运行部署MapReduce分布式计算框架

主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架，包括准备数据、运行MapReduce任务、查看任务日志，并启动HistoryServer服务以便于日志查看。

尹正杰

102 0 0

尹正杰

|

6月前

|

资源调度分布式计算 Hadoop

使用YARN命令管理Hadoop作业

本文介绍了如何使用YARN命令来管理Hadoop作业，包括查看作业列表、检查作业状态、杀死作业、获取作业日志以及检查节点和队列状态等操作。

尹正杰

142 1 1

使用YARN命令管理Hadoop作业

尹正杰

|

6月前

|

资源调度分布式计算 Hadoop

YARN(Hadoop操作系统)的架构

本文详细解释了YARN（Hadoop操作系统）的架构，包括其主要组件如ResourceManager、NodeManager和ApplicationMaster的作用以及它们如何协同工作来管理Hadoop集群中的资源和调度作业。

尹正杰

226 3 3

YARN(Hadoop操作系统)的架构

土木林森

|

7月前

|

资源调度分布式计算算法

【揭秘Yarn调度秘籍】打破资源分配的枷锁，Hadoop Yarn权重调度全攻略！

【8月更文挑战第24天】在大数据处理领域，Hadoop Yarn 是一种关键的作业调度与集群资源管理工具。它支持多种调度器以适应不同需求，默认采用FIFO调度器，但可通过引入基于权重的调度算法来提高资源利用率。该算法根据作业或用户的权重值决定资源分配比例，权重高的可获得更多计算资源，特别适合多用户共享环境。管理员需在Yarn配置文件中启用特定调度器（如CapacityScheduler），并通过设置队列权重来实现资源的动态调整。合理配置权重有助于避免资源浪费，确保集群高效运行，满足不同用户需求。

土木林森

97 3 3

三分钟热度的鱼

|

9月前

|

资源调度分布式计算 Hadoop

实时计算 Flink版产品使用问题之yarn session模式中启动的任务链接是http IP，想把IP映射为主机hadoop，该怎么操作

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

104 0 0

热门文章

最新文章

Flink Materialized Table：构建流批一体 ETL

Flink基于Paimon的实时湖仓解决方案的演进

基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成

Flink CDC + Hologres高性能数据同步优化实践

docker环境安装kafka/Flink/clickhouse镜像

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成

Flink CDC 3.3.0 发布公告

Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践

基于Flink CDC 开发，支持Web-UI的实时KingBase 连接器，三大模式无缝切换，效率翻倍！

yarn如何用node替换

一文带你了解PNPM以及 npm,yarn,pnpm区别

【赵渝强老师】Yarn的资源调度策略

如何在Flink on YARN环境中配置Debezium CDC 3.0，以实现实时捕获数据库变更事件并将其传输到Flink进行处理

Spark Standalone与YARN的区别？

npx与npm的差异解析，以及包管理器yarn与Node版本管理工具nvm的使用方法详解

Yarn学习，Yarn安装，Yarn常用命令。这一篇即可（有需要再补充）

Spark Standalone与YARN的区别？

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

大数据-04-Hadoop集群集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI（一）

相关课程

更多

基于阿里云Hologres&Flink实时计算平台搭建数据仓库（实时）

实时数据分析：使用Flink实时发现最热Github项目

实时数据接入：5分钟上手 Flink MySQL 连接器

大数据知识图谱系列—基于ELK+Flink日志全观测最佳实践

基于Flink的实时大数据应用Demo

实时计算 Flink 实战课程

相关电子书

更多

基于 Flink SQL + Paimon 构建流式湖仓新方

基于 Flink CDC 打造企业级实时数据集成方案

李劲松｜Flink Table Store 典型应用场景

相关实验场景

更多

搭建Hadoop环境

通过FastMR自动拉起大数据集群并运行TPCDS任务

使用Flink实时发现最热Github项目

5分钟上手Flink MySQL连接器

基于Flink+Tair搭建实时监控大屏

基于Hologres+Flink搭建GitHub实时数据大屏

下一篇

获取百炼API-KEY