备案控制台

开发者社区云原生文章正文

Flink on Yarn三部曲之二：部署和设置

2022-03-31 233

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 本文是《Flink on Yarn三部曲》系列的第二篇，前面已经为部署做好了准备，现在可以一起来部署和启动Yarn环境了

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码)： https://github.com/zq2599/blog_demos

本篇概览

本文是《Flink on Yarn三部曲》系列的第二篇，上一篇《Flink on Yarn三部曲之一：准备工作》已将所需的机器和文件准备完毕，可以部署CDH和Flink了；

执行ansible脚本部署CDH和Flink(ansible电脑)

进入ansible电脑的~/playbooks目录，经过上一篇的准备工作，该目录下应该是下图这些内容：

在这里插入图片描述

检查ansible远程操作CDH服务器是否正常，执行命令ansible deskmini -a "free -m"，正常情况下显示CDH服务器的内存信息，如下图：

在这里插入图片描述

执行命令开始部署：ansible-playbook cm6-cdh5-flink1.7-single-install.yml
整个部署过程涉及在线安装、传文件等耗时的操作，因此请耐心等待（半小时左右），如果部署期间出错退出（例如网络问题），只需重复执行上述命令即可，ansible保证了操作的幂等性；
部署成功如下图所示：

在这里插入图片描述

重启CDH服务器

由于修改了selinux和swap的设置，需要重启操作系统才能生效，因此请重启CDH服务器；

执行ansible脚本启动CDH服务(ansible电脑)

等待CDH服务器重启成功；
登录ansible电脑，进入~/playbooks目录；
执行初始化数据库和启动CDH的脚本：ansible-playbook cdh-single-start.yml
启动完成输出如下信息：

在这里插入图片描述

ssh登录CDH服务器，执行此命令观察CDH服务的启动情况：tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log，看到下图红框中的内容时，表示启动完成，可以用浏览器登录了：

在这里插入图片描述

设置(浏览器操作)

现在CDH服务已经启动了，可以通过浏览器来操作：
浏览器访问：http://192.168.50.134:7180 ，如下图，账号密码都是admin：

在这里插入图片描述

一路next，在选择版本页面选择60天体验版：

在这里插入图片描述

选择主机页面可见CDH服务器（deskmini）：

在这里插入图片描述

在选择CDH版本的页面，请选择下图红框中的5.16.2-1：

在这里插入图片描述

进入安装Parcel的页面，由于提前上传了离线parcle包，因此下载进度瞬间变成百分之百，此时请等待分配、解压、激活的完成：

在这里插入图片描述

接下来有一些推荐操作，这里选择如下图红框，即可跳过：

在这里插入图片描述

接下来是选择服务的页面，我选择了自定义服务，然后选择了HDFS、YARN、Zookeeper这三项，可以满足运行Flink的需要：

在这里插入图片描述

在选择主机的页面，都选择CDH服务器：

在这里插入图片描述

接下来是数据库设置的页面，您填写的内容必须与下图保持一致，即主机名为localhost，Activity Monitor的数据库、用户、密码都是amon，Reports Manager的数据库、用户、密码都是rman，这些内容在ansible脚本中已经固定了，此处的填写必须保持一致：

在这里插入图片描述

在设置参数的页面，请按照您的硬盘实际情况设置，我这里/home目录下空间充足，因此存储位置都改为/home目录下：

在这里插入图片描述

等待服务启动：

在这里插入图片描述

各服务启动完成：

在这里插入图片描述

YARN设置

默认的YARN参数是非常保守的，需要做一些设置才能顺利执行Flink任务：
点下图红框位置，进入YARN管理页：

在这里插入图片描述

如下图所示，检查参数yarn.nodemanager.resource.cpu-vcores的值，该值必须大于1，否则提交Flink任务后YARN不分配资源执行任务，（如果您的CDH服务器是虚拟机，当CPU只有单核时，则此参数就会被设置为1，解决办法是先提升虚拟机CPU核数，再来修改此参数）：

在这里插入图片描述

yarn.scheduler.minimum-allocation-mb：单个容器可申请的最小内存，我这里设置为1G
yarn.scheduler.maximum-allocation-mb：单个容器可申请的最大内存，我这里设置为8G
yarn.nodemanager.resource.memory-mb：节点最大可用内存，我这里设置为8G
上述三个参数的值，是基于我的CDH服务器有32G内存的背景，请您按照自己硬件资源自行调整；
设置完毕后重启YARN服务，操作如下图所示：

在这里插入图片描述

至此，部署和设置都已完成，Flink on Yarn的环境已经可用了，在下一篇文章中，我们就在此环境提交Flink任务，体验Flink on Yarn；

欢迎关注阿里云开发者社区博客：程序员欣宸

学习路上，你不孤单，欣宸原创一路相伴...

文章标签：

实时计算 Flink版

容器

流计算

资源调度

网络安全

数据安全/隐私保护

程序员

数据库

存储

开发者

关键词：

实时计算 Flink版部署

实时计算 Flink版Yarn

实时计算 Flink版设置

实时计算 Flink版yarn部署

Yarn部署

相关实践学习

基于Hologres轻松玩转一站式实时仓库

本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。

Linux入门到精通

本套课程是从入门开始的Linux学习课程，适合初学者阅读。由浅入深案例丰富，通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员，只要能够坚持把所有章节都学完，也一定会受益匪浅。

程序员欣宸

目录

相关文章

三分钟热度的鱼

|

1天前

|

SQL 消息中间件 Kafka

实时计算 Flink版产品使用问题之水位线的设置方法是什么

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

4 1 1

三分钟热度的鱼

|

1天前

|

SQL Kubernetes 数据处理

实时计算 Flink版产品使用问题之如何把集群通过kubernetes进行部署

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

8 1 1

三分钟热度的鱼

|

1天前

|

资源调度 Oracle Java

实时计算 Flink版产品使用问题之在YARN集群上运行时，如何查看每个并行度的详细处理数据情况

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

6 0 0

三分钟热度的鱼

|

1天前

|

SQL 消息中间件 Kafka

实时计算 Flink版产品使用问题之如何在EMR-Flink的Flink SOL中针对source表单独设置并行度

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

8 0 0

三分钟热度的鱼

|

1天前

|

Kubernetes Java 数据库连接

实时计算 Flink版产品使用问题之部署到 Kubernetes 集群时，任务过一会儿自动被取消，该如何排查

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

6 0 0

三分钟热度的鱼

|

1天前

|

资源调度安全数据处理

实时计算 Flink版产品使用问题之提交任务时如何设置TaskManager的数量

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

5 0 0

三分钟热度的鱼

|

1天前

|

SQL 资源调度数据处理

实时计算 Flink版产品使用问题之-s参数在yarn-session.sh命令中是否有效

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

7 0 0

灵杰开发者

|

21天前

|

存储监控大数据

阿里云实时计算Flink在多行业的应用和实践

本文整理自 Flink Forward Asia 2023 中闭门会的分享。主要分享实时计算在各行业的应用实践，对回归实时计算的重点场景进行介绍以及企业如何使用实时计算技术，并且提供一些在技术架构上的参考建议。

灵杰开发者

580 7 8

阿里云实时计算Flink在多行业的应用和实践

三分钟热度的鱼

|

1天前

|

消息中间件监控 Kafka

实时计算 Flink版产品使用问题之怎么调整Flink Web U显示的日志行数

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

8 0 0

三分钟热度的鱼

|

1月前

|

SQL 关系型数据库 MySQL

实时计算 Flink版操作报错合集之从mysql读数据写到hive报错，是什么原因

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

三分钟热度的鱼

123 5 5

热门文章

最新文章

YARN中的CPU资源隔离-CGroups

[npm]使用(c)npm安装yarn

换npm yarn的源让install超时去死吧

CDP中使用YARN Web UI和CLI

项目中的yarn.lock文件的作用

Hadoop 2.x HDFS和YARN的启动方式

YARN的Memory和CPU调优配置详解

CCAH-CCA-500-6题:You want YARN to launch no more than 16 containers per node.

十二、Spark的安装与部署详情（Local模式，Standalone模式，Spank on YARN模式）

Drill-on-YARN之源码解析

Blink实时计算：Explorer大基数表的写入性能优化

Flink DataStream API 批处理能力演进之路

人工智能平台PAI 操作报错合集之在集群上提交了包含alink相关功能的flink任务，但是却报错如何解决

阿里巴巴瓴羊基于 Flink 实时计算的优化和实践

[尚硅谷flink] 检查点笔记

[尚硅谷 flink] 状态管理笔记

[尚硅谷flink学习笔记] 实战案例TopN 问题

[尚硅谷 flink] 基于时间的合流——双流联结

[尚硅谷flink] 水位线

[实时流基础 flink] 窗口函数

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

Apache Flink 入门到实战 - Flink开源社区出品

实时计算 Flink 版产品入门与实操

开源 Flink 极速上手教程

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Flink CDC Meetup PPT - 龚中强

Flink CDC Meetup PPT - 王赫

Flink CDC Meetup PPT - 覃立辉

相关实验场景

更多

搭建Hadoop环境

XXL-JOB零改造迁移

使用Flink实时发现最热Github项目

5分钟上手Flink MySQL连接器

下一篇

通义千问API入门教程