0017-Spark的HistoryServer不能查看到所有历史作业分析

简介: 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 1.问题描述 Spark的HistoryServer能正常查看之前的历史作业日志,但新提交的作业在执行完成后未能在HistoryServer页面查看。

1.问题描述

Spark的HistoryServer能正常查看之前的历史作业日志,但新提交的作业在执行完成后未能在HistoryServer页面查看。

2.问题复现

1.分别使用root和ec2-user用户执行作业

2.通过sparkHistory Server可以正常查看到所有历史作业

3.将/user/spark/applicationHistory目录的所属组修改为supergroup,再次执行作业

sudo –u hdfs hadoop dfs –chown spark:supergroup /user/spark/applicationHistroy

作业执行完成

HDFS上正常记录了spark作业日志,但作业所属group为supergroup

sparkHistoryServer报异常,没有权限访问历史job目录

4.在History Server未查看到刚执行完成的007作业

3.问题原因

由于/user/spark/applicationHistory目录的所属组为supergroup,导致所有用户作业的目录均为supergroup组,之前能正常查看的历史作业由于目录的所属组任为spark。

4.解决方法

将/user/spark/applicationHistory目录及该目录下的子目录所属组修改为spark

sudo –u hdfs hadoop dfs –chgrp –R spark /user/spark/applicationHistory

修改后所有历史作业均可正常查看

相关文章
|
1天前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
166 0
|
1天前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
1天前
|
SQL 分布式计算 HIVE
Spark数据倾斜问题分析和解决
Spark数据倾斜问题分析和解决
44 0
|
7月前
|
SQL 分布式计算 资源调度
线上 hive on spark 作业执行超时问题排查案例分享
线上 hive on spark 作业执行超时问题排查案例分享
|
7月前
|
分布式计算 资源调度 监控
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
|
1天前
|
分布式计算 Java 关系型数据库
|
1天前
|
SQL 分布式计算 数据可视化
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
|
1天前
|
机器学习/深度学习 分布式计算 数据处理
Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
24 3
|
1天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
|
8月前
|
消息中间件 分布式计算 大数据
大数据Spark实时搜索日志实时分析
大数据Spark实时搜索日志实时分析
139 1