查看YARN上应用的日志之JobHistory

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 查看YARN上应用的日志之JobHistory

0x00 教程内容



  1. JobHistory介绍
  2. 背景演示
  3. 实验步骤


0x01 JobHistory介绍


1. 作用

a. 记录已经运行完的MaprReduce作业信息到HDFS的目录上(默认是不开启的)


0x02 背景演示


1. 执行MapReduce作业

a. 参考文章:MapReduce入门例子之单词计数的代码

b. 执行MapReduce作业:

yarn jar hadoop-learning-1.0.jar com.shaonaiyi.hadoop.WordCount hdfs://master:9999/files/put.txt hdfs://master:9999/output/wc/


2. YARN界面查看

a. 打开Web UI界面

http://master:8088

b. 点击RUNNING、FINISHED

RUNNING:在执行的时候可以看到作业,执行完之后只能在FINISHED里面看到。


image.pngimage.pngimage.png

image.png


3. 查看YARN作业的日志

a. 当作业跑完之后,进入FINISHED,点击作业的History,会发现无法访问,这就是我们需要解决的问题:


image.png


0x03 实验步骤


1. 配置JobHistory

a. 修改配置文件($HADOOP_HOME/etc/hadoop/mapred-site.xml):

进入操作文件目录:

cd $HADOOP_HOME/etc/hadoop/

vi mapred-site.xml

<property>
  <name>mapreduce.jobhistory.address</name>
  <value>master:10020</value>
  <description>MapReduce JobHistory Server IPC host:port</description>
</property>
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>master:19888</value>
  <description>MapReduce JobHistory Server Web UI host:port</description>
</property>
<property>
    <name>mapreduce.jobhistory.done-dir</name>
    <value>/history/done</value>
</property>
<property>
    <name>mapreduce.jobhistory.intermediate-done-dir</name>
    <value>/history/done_intermediate</value>
</property>


image.png


b. 添加配置($HADOOP_HOME/etc/hadoop/yarn-site.xml):

<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>


c. 同步配置文件到slave1、slave2:

scp mapred-site.xml yarn-site.xml hadoop-sny@slave1:~/bigdata/hadoop-2.7.5/etc/hadoop/

scp mapred-site.xml yarn-site.xml hadoop-sny@slave2:~/bigdata/hadoop-2.7.5/etc/hadoop/


2. 启动JobHistory

a. 重启YARN(master上执行)

stop-yarn.sh

start-yarn.sh

a. 启动JobHistory(master上执行)

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

b. 查看master进程,发现JobHistory的进程已经存在了:

jps


image.png

image.png


3. 校验JobHistory

a. 重新提交作业,等待运行完,点击FINISHED里面作业的History,进入界面后可在下面两个链接找到日志入口logs


image.png


image.png


b. 同样,在配置的文件目录下也可以看到生成了文件:

hadoop fs -ls /history

一直点进去可以看到有两种文件:

该目录下将存在3个文件,分别是以“.jhist”、和“.xml”结尾的文件,分别表示作业运行日志和作业配置属性


0xFF 总结


  1. 停止JobHistory的history-server的命令为:
    $HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver
  2. 配置有多种方式,我这里提供的是我总结的比较好的方式。
相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
3月前
|
监控 安全 Linux
AWK在网络安全中的高效应用:从日志分析到威胁狩猎
本文深入探讨AWK在网络安全中的高效应用,涵盖日志分析、威胁狩猎及应急响应等场景。通过实战技巧,助力安全工程师将日志分析效率提升3倍以上,构建轻量级监控方案。文章详解AWK核心语法与网络安全专用技巧,如时间范围分析、多条件过滤和数据脱敏,并提供性能优化与工具集成方案。掌握AWK,让安全工作事半功倍!
91 0
|
6月前
|
存储 监控 算法
基于 PHP 语言的滑动窗口频率统计算法在公司局域网监控电脑日志分析中的应用研究
在当代企业网络架构中,公司局域网监控电脑系统需实时处理海量终端设备产生的连接日志。每台设备平均每分钟生成 3 至 5 条网络请求记录,这对监控系统的数据处理能力提出了极高要求。传统关系型数据库在应对这种高频写入场景时,性能往往难以令人满意。故而,引入特定的内存数据结构与优化算法成为必然选择。
143 3
|
7月前
|
运维 应用服务中间件 nginx
docker运维查看指定应用log文件位置和名称
通过本文的方法,您可以更高效地管理和查看Docker容器中的日志文件,确保应用运行状态可控和可监测。
823 28
|
8月前
|
存储 人工智能 JSON
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。
369 7
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
|
6月前
|
SQL 数据库
【YashanDB知识库】应用绑定参数的慢查询,慢日志抓取不到
【YashanDB知识库】应用绑定参数的慢查询,慢日志抓取不到
|
7月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
163 0
|
7月前
|
存储 弹性计算 运维
海量日志接入 Elasticsearch Serverless 应用降本70%以上
本文将探讨在日志场景下,使用阿里云Elasticsearch Serverless相较于基于ECS自建Elasticsearch集群的成本与性能优势,展示如何通过Serverless架构实现高达 70%以上的成本节约。
416 0
|
4月前
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
614 54
|
9月前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
254 9