0017-Spark的HistoryServer不能查看到所有历史作业分析

简介: 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 1.问题描述 Spark的HistoryServer能正常查看之前的历史作业日志,但新提交的作业在执行完成后未能在HistoryServer页面查看。

1.问题描述

Spark的HistoryServer能正常查看之前的历史作业日志,但新提交的作业在执行完成后未能在HistoryServer页面查看。

2.问题复现

1.分别使用root和ec2-user用户执行作业

2.通过sparkHistory Server可以正常查看到所有历史作业

3.将/user/spark/applicationHistory目录的所属组修改为supergroup,再次执行作业

sudo –u hdfs hadoop dfs –chown spark:supergroup /user/spark/applicationHistroy

作业执行完成

HDFS上正常记录了spark作业日志,但作业所属group为supergroup

sparkHistoryServer报异常,没有权限访问历史job目录

4.在History Server未查看到刚执行完成的007作业

3.问题原因

由于/user/spark/applicationHistory目录的所属组为supergroup,导致所有用户作业的目录均为supergroup组,之前能正常查看的历史作业由于目录的所属组任为spark。

4.解决方法

将/user/spark/applicationHistory目录及该目录下的子目录所属组修改为spark

sudo –u hdfs hadoop dfs –chgrp –R spark /user/spark/applicationHistory

修改后所有历史作业均可正常查看

相关文章
|
4月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
164 1
Spark快速大数据分析PDF下载读书分享推荐
|
6月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
114 0
|
6月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
251 0
|
13天前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
82 2
|
23天前
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
52 0
|
4月前
|
弹性计算 分布式计算 Serverless
全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
23704 42
|
3月前
|
SQL 分布式计算 监控
|
3月前
|
分布式计算 并行计算 数据处理
|
4月前
|
SQL 分布式计算 监控
在hue上部署spark作业
7月更文挑战第11天
125 3
|
6月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56592 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用