Flink on Yarn三部曲之二:部署和设置

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 本文是《Flink on Yarn三部曲》系列的第二篇,前面已经为部署做好了准备,现在可以一起来部署和启动Yarn环境了

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码): https://github.com/zq2599/blog_demos

全文链接

  1. 《Flink on Yarn三部曲之一:准备工作》
  2. 《Flink on Yarn三部曲之二:部署和设置》
  3. 《Flink on Yarn三部曲之三:提交Flink任务》

执行ansible脚本部署CDH和Flink(ansible电脑)

  • 进入ansible电脑的~/playbooks目录,经过上一篇的准备工作,该目录下应该是下图这些内容:

在这里插入图片描述

  • 检查ansible远程操作CDH服务器是否正常,执行命令ansible deskmini -a "free -m",正常情况下显示CDH服务器的内存信息,如下图:

在这里插入图片描述

  • 执行命令开始部署:ansible-playbook cm6-cdh5-flink1.7-single-install.yml
  • 整个部署过程涉及在线安装、传文件等耗时的操作,因此请耐心等待(半小时左右),如果部署期间出错退出(例如网络问题),只需重复执行上述命令即可,ansible保证了操作的幂等性;
  • 部署成功如下图所示:

在这里插入图片描述

重启CDH服务器

  • 由于修改了selinux和swap的设置,需要重启操作系统才能生效,因此请重启CDH服务器;

执行ansible脚本启动CDH服务(ansible电脑)

  • 等待CDH服务器重启成功;
  • 登录ansible电脑,进入~/playbooks目录;
  • 执行初始化数据库和启动CDH的脚本:ansible-playbook cdh-single-start.yml
  • 启动完成输出如下信息:

在这里插入图片描述

  • ssh登录CDH服务器,执行此命令观察CDH服务的启动情况:tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log,看到下图红框中的内容时,表示启动完成,可以用浏览器登录了:

在这里插入图片描述

设置(浏览器操作)

  • 现在CDH服务已经启动了,可以通过浏览器来操作:
  • 浏览器访问:http://192.168.50.134:7180 ,如下图,账号密码都是admin

在这里插入图片描述

  • 一路next,在选择版本页面选择60天体验版:

在这里插入图片描述

  • 选择主机页面可见CDH服务器(deskmini):

在这里插入图片描述

  • 在选择CDH版本的页面,请选择下图红框中的5.16.2-1

在这里插入图片描述

  • 进入安装Parcel的页面,由于提前上传了离线parcle包,因此下载进度瞬间变成百分之百,此时请等待分配、解压、激活的完成:

在这里插入图片描述

  • 接下来有一些推荐操作,这里选择如下图红框,即可跳过:

在这里插入图片描述

  • 接下来是选择服务的页面,我选择了自定义服务,然后选择了HDFS、YARN、Zookeeper这三项,可以满足运行Flink的需要:

在这里插入图片描述

  • 在选择主机的页面,都选择CDH服务器:

在这里插入图片描述

  • 接下来是数据库设置的页面,您填写的内容必须与下图保持一致,即主机名为localhost,Activity Monitor的数据库、用户、密码都是amon,Reports Manager的数据库、用户、密码都是rman,这些内容在ansible脚本中已经固定了,此处的填写必须保持一致:

在这里插入图片描述

  • 在设置参数的页面,请按照您的硬盘实际情况设置,我这里/home目录下空间充足,因此存储位置都改为/home目录下:

在这里插入图片描述

  • 等待服务启动:

在这里插入图片描述

  • 各服务启动完成:

在这里插入图片描述

YARN设置

  • 默认的YARN参数是非常保守的,需要做一些设置才能顺利执行Flink任务:
  • 点下图红框位置,进入YARN管理页:

在这里插入图片描述

  • 如下图所示,检查参数yarn.nodemanager.resource.cpu-vcores的值,该值必须大于1,否则提交Flink任务后YARN不分配资源执行任务,(如果您的CDH服务器是虚拟机,当CPU只有单核时,则此参数就会被设置为1,解决办法是先提升虚拟机CPU核数,再来修改此参数):

在这里插入图片描述

  • yarn.scheduler.minimum-allocation-mb:单个容器可申请的最小内存,我这里设置为1G
  • yarn.scheduler.maximum-allocation-mb:单个容器可申请的最大内存,我这里设置为8G
  • yarn.nodemanager.resource.memory-mb:节点最大可用内存,我这里设置为8G
  • 上述三个参数的值,是基于我的CDH服务器有32G内存的背景,请您按照自己硬件资源自行调整;
  • 设置完毕后重启YARN服务,操作如下图所示:

在这里插入图片描述

  • 至此,部署和设置都已完成,Flink on Yarn的环境已经可用了,在下一篇文章中,我们就在此环境提交Flink任务,体验Flink on Yarn;

欢迎关注阿里云开发者社区博客:程序员欣宸

学习路上,你不孤单,欣宸原创一路相伴...
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
3月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
200 0
|
2月前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
161 9
|
3月前
|
Kubernetes Cloud Native 流计算
Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细 扩容缩容部署 Docker容器编排
Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细 扩容缩容部署 Docker容器编排
107 3
|
3月前
|
消息中间件 分布式计算 大数据
大数据-128 - Flink 并行度设置 细节详解 全局、作业、算子、Slot
大数据-128 - Flink 并行度设置 细节详解 全局、作业、算子、Slot
196 0
|
3月前
|
资源调度 分布式计算 大数据
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
145 0
|
4月前
|
分布式计算 资源调度 Hadoop
在YARN集群上运行部署MapReduce分布式计算框架
主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架,包括准备数据、运行MapReduce任务、查看任务日志,并启动HistoryServer服务以便于日志查看。
89 0
|
4月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
2月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
1539 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
3天前
|
消息中间件 关系型数据库 MySQL
Flink CDC 在阿里云实时计算Flink版的云上实践
本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。
Flink CDC 在阿里云实时计算Flink版的云上实践
zdl
|
2月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
183 56