备案控制台

开发者社区开发与运维文章正文

3 weekend110的job提交的逻辑及YARN框架的技术机制 + MR程序的几种提交运行模式

2017-11-02 1481

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

途径1:

途径2：

途径3：

成功!

由此，可以好好比较下，途径1和途径2 和途径3 的区别。

现在，来玩玩weekend110的joba提交的逻辑之源码跟踪

原来如此，weekend110的job提交的逻辑源码，停在这了

hello world

hello tom

helllo jim

jim is a bad boy

hello jack

hello baby

baby is my nvshen

hello world

hello tom

helllo jim

jim is a bad boy

hello jack

hello baby

baby is my nvshen

不再一个一个放了。直接放完吧，map

a 1

baby 2

bad 1

boy 1

helllo 1

hello 4

is 2

jack 1

jim 2

my 1

nvshen 1

tom 1

world

以上是weekend110的job提交的逻辑之源代码跟踪

接下来是yarn框架的技术机制，

Resourcemanager和nodemanager进程一直在，

Yarnchild进程一会在，一会不在，

以上是weekend110的job提交的逻辑及YARN框架的技术机制

MR程序的几种提交运行模式

本地模型运行：

1/在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行

----输入输出数据可以放在本地路径下（c:/wc/srcdata/）

----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdata)

2/在linux的eclipse里面直接运行main方法，但是不要添加yarn相关的配置，也会提交给localjobrunner执行

----输入输出数据可以放在本地路径下（/home/hadoop/wc/srcdata/）

----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdata)

集群模式运行：

1/将工程打成jar包，上传到服务器，然后用hadoop命令提交 hadoop jar wc.jar cn.itcast.hadoop.mr.wordcount.WCRunner

2/在linux的eclipse中直接运行main方法，也可以提交到集群中去运行，但是，必须采取以下措施：

----在工程src目录下加入 mapred-site.xml 和 yarn-site.xml

----将工程打成jar包(wc.jar)，同时在main方法中添加一个conf的配置参数　conf.set("mapreduce.job.jar","wc.jar");

3/在windows的eclipse中直接运行main方法，也可以提交给集群中运行，但是因为平台不兼容，需要做很多的设置修改

----要在windows中存放一份hadoop的安装包（解压好的）

----要将其中的lib和bin目录替换成根据你的windows版本重新编译出的文件

----再要配置系统环境变量 HADOOP_HOME 和 PATH

----修改YarnRunner这个类的源码

玄机是在Runjar，

Runjar客户端，它持有的是跟rm通信的那个客户端，它就会往那走

Runjar客户端，它持有的是跟本地模式通信的那个客户端，它就会提交到本地去了

那么，它在什么情况之下，持有rm客户端，什么情况下，持有本地客户端呢？

看源码最清楚

配置对象，没配任何信息，默认就会创建一个跟本地模式通信的Runjar，

MR程序的几种提交运行模式

演示：

2/在linux的eclipse里面直接运行main方法，但是不要添加yarn相关的配置，也会提交给localjobrunner执行

----输入输出数据可以放在本地路径下（/home/hadoop/wc/srcdata/）

----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdata)

在这里，依然还是没解决，windows是用的是jpk，这里用的是utf-8，告诫我们，平常要习惯用utf-8

1 Common的jar包和 2 hdfs的jar包，已经加过了，

还需，3 mapreduce的jar包 4 mapreduce下lib下的jar 和5 yarn的jar包和6 yarn下lib的jar包。

hadoop没启，这只是在linux里的jvm运行。

这说明，跑的mr的确是在本地，

情况四：

总结，eclipse开发，若在windows下，需要插件，一般牛人会ant编译出一个插件，挂到csdn上，卖积分。也许，这位牛人弄出来的插件在他电脑上是可以，但到别人电脑上又不可以了。所以，一般能在linux里的eclipse下开发最好不过了。这样可避免插件浪费很多时间。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5895657.html，如需转载请自行联系原作者

文章标签：

Linux

Windows

资源调度

Java

分布式计算

关键词：

Yarn模式

Yarn框架

Yarn运行

Yarn job

Yarn程序

技术小哥哥

目录

相关文章

土木林森

|

4月前

|

分布式计算资源调度大数据

【决战大数据之巅】：Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决！

【8月更文挑战第7天】随着大数据需求的增长，Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务，易于设置，适用于小规模或独立部署；而 YARN 作为 Hadoop 的资源管理系统，支持资源的统一管理和调度，更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。

土木林森

274 3 3

三分钟热度的鱼

|

7月前

|

消息中间件资源调度 Java

实时计算 Flink版产品使用合集之部署yarn模式，怎么实现峰谷动态并行度扩容缩容

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

111 1 1

刘大猫.

|

3月前

|

消息中间件分布式计算 Java

Linux环境下 java程序提交spark任务到Yarn报错

Linux环境下 java程序提交spark任务到Yarn报错

刘大猫.

50 5 5

武子康

|

2月前

|

资源调度分布式计算大数据

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

武子康

119 0 0

土木林森

|

4月前

|

资源调度关系型数据库 MySQL

【Flink on YARN + CDC 3.0】神操作！看完这篇教程，你也能成为数据流处理高手！从零开始，一步步教会你在Flink on YARN模式下如何配置Debezium CDC 3.0，让你的数据库变更数据瞬间飞起来！

【8月更文挑战第15天】随着Apache Flink的普及，企业广泛采用Flink on YARN部署流处理应用，高效利用集群资源。变更数据捕获（CDC）工具在现代数据栈中至关重要，能实时捕捉数据库变化并转发给下游系统处理。本文以Flink on YARN为例，介绍如何在Debezium CDC 3.0中配置MySQL连接器，实现数据流处理。首先确保YARN上已部署Flink集群，接着安装Debezium MySQL连接器并配置Kafka Connect。最后，创建Flink任务消费变更事件并提交任务到Flink集群。通过这些步骤，可以构建出从数据库变更到实时处理的无缝数据管道。

土木林森

382 2 3

尹正杰

|

3月前

|

分布式计算资源调度 Hadoop

在YARN集群上运行部署MapReduce分布式计算框架

主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架，包括准备数据、运行MapReduce任务、查看任务日志，并启动HistoryServer服务以便于日志查看。

尹正杰

75 0 0

嘟嘟嘟嘟嘟嘟

|

5月前

|

SQL 弹性计算资源调度

云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行

云服务器ECS（Elastic Compute Service）是各大云服务商阿里云提供的一种基础云计算服务，它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。

嘟嘟嘟嘟嘟嘟

76 7 7

土木林森

|

4月前

|

资源调度分布式计算监控

【揭秘Hadoop YARN背后的奥秘！】从零开始，带你深入了解YARN资源管理框架的核心架构与实战应用！

【8月更文挑战第24天】Hadoop YARN（Yet Another Resource Negotiator）是Hadoop生态系统中的资源管理器，为Hadoop集群上的应用提供统一的资源管理和调度框架。YARN通过ResourceManager、NodeManager和ApplicationMaster三大核心组件实现高效集群资源利用及多框架支持。本文剖析YARN架构及组件工作原理，并通过示例代码展示如何运行简单的MapReduce任务，帮助读者深入了解YARN机制及其在大数据处理中的应用价值。

土木林森

106 0 0

三分钟热度的鱼

|

5月前

|

SQL 缓存资源调度

实时计算 Flink版产品使用问题之在Flink on Yarn模式下，如何对job作业进行指标监控

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

63 1 1

三分钟热度的鱼

|

5月前

|

SQL 资源调度关系型数据库

实时计算 Flink版产品使用问题之在使用Flink on yarn模式进行内存资源调优时，如何进行优化

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

83 0 0

热门文章

最新文章

YARN中的CPU资源隔离-CGroups

Flink on YARN（上）：一张图轻松掌握基础架构与启动流程

Hadoop大数据平台实战(05)：深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8s

[npm]使用(c)npm安装yarn

换npm yarn的源让install超时去死吧

Hadoop 2.x HDFS和YARN的启动方式

linux中安装node，npm和yarn

Koordinator 支持 K8s 与 YARN 混部，小红书在离线混部实践分享

YARN的Memory和CPU调优配置详解

YARN 中VCores Total和集群节点实际的CPU核数不一致问题

Yarn安装与使用

nvm, node.js, npm, yarn 安装配置

nvm,npm,yarn相关指令，前端配置准备

Yarn的安装和使用

Yarn介绍及快速安装Debian/Ubuntu Linux

yarn 安装卸载降级升级以及常用指令

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

npm，registry，镜像源，npm切换源，yarn，cnpm，taobao，nrs

Hadoop【环境搭建 02】【hadoop-3.1.3 单机版YARN】（配置、启动及验证）

相关课程

更多

Hadoop 分布式资源管理框架 YARN

相关电子书

更多

深度学习+大数据 TensorFlow on Yarn

Docker on Yarn 微服务实践

深度学习+大数据-TensorFlow on Yarn

相关实验场景

更多

XXL-JOB零改造迁移

下一篇

DataWorks售前咨询