文档备案控制台

开发者社区大数据文章正文

0017-Spark的HistoryServer不能查看到所有历史作业分析

2018-11-19 1388

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 1.问题描述 Spark的HistoryServer能正常查看之前的历史作业日志，但新提交的作业在执行完成后未能在HistoryServer页面查看。

1.问题描述

Spark的HistoryServer能正常查看之前的历史作业日志，但新提交的作业在执行完成后未能在HistoryServer页面查看。

2.问题复现

1.分别使用root和ec2-user用户执行作业

2.通过sparkHistory Server可以正常查看到所有历史作业

3.将/user/spark/applicationHistory目录的所属组修改为supergroup，再次执行作业

sudo –u hdfs hadoop dfs –chown spark:supergroup /user/spark/applicationHistroy

作业执行完成

HDFS上正常记录了spark作业日志，但作业所属group为supergroup

sparkHistoryServer报异常，没有权限访问历史job目录

4.在History Server未查看到刚执行完成的007作业

3.问题原因

由于/user/spark/applicationHistory目录的所属组为supergroup，导致所有用户作业的目录均为supergroup组，之前能正常查看的历史作业由于目录的所属组任为spark。

4.解决方法

将/user/spark/applicationHistory目录及该目录下的子目录所属组修改为spark

sudo –u hdfs hadoop dfs –chgrp –R spark /user/spark/applicationHistory

修改后所有历史作业均可正常查看

文章标签：

分布式计算

Spark

Hadoop

关键词：

apache spark作业

apache spark分析

apache spark历史

apache spark historyserver

hadoop实操

目录

相关文章

张飞的猪

|

机器学习/深度学习分布式计算算法

Spark快速大数据分析PDF下载读书分享推荐

《Spark快速大数据分析》适合初学者，聚焦Spark实用技巧，同时深入核心概念。作者团队来自Databricks，书中详述Spark 3.0新特性，结合机器学习展示大数据分析。Spark是大数据分析的首选工具，本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center

张飞的猪

720 1 1

Spark快速大数据分析PDF下载读书分享推荐

敏叔V587

|

移动开发分布式计算 Spark

Spark的几种去重的原理分析

Spark的几种去重的原理分析

敏叔V587

653 0 0

阿里云基础设施.

|

人工智能分布式计算调度

打破资源边界、告别资源浪费：ACK One 多集群Spark和AI作业调度

ACK One多集群Spark作业调度，可以帮助您在不影响集群中正在运行的在线业务的前提下，打破资源边界，根据各集群实际剩余资源来进行调度，最大化您多集群中闲置资源的利用率。

阿里云基础设施.

671 26 26

扬流

|

SQL 分布式计算 Serverless

EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会阿里云 EMR 团队负责人李钰（绝顶）演讲实录整理而成

扬流

1072 58 58

游客tvgb6vci6chtq

|

存储分布式计算调度

Spark Master HA 主从切换过程不会影响到集群已有作业的运行，为什么？

Spark Master 的高可用性（HA）机制确保主节点故障时，备用主节点能无缝接管集群管理，保障稳定运行。关键在于： 1. **Driver 和 Executor 独立**：任务执行不依赖 Master。 2. **应用状态保持**：备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**：快速选举新 Master 并同步状态。 4. **容错机制**：任务可在其他 Executor 上重新调度。这些特性保证了集群在 Master 故障时仍能正常运行。

游客tvgb6vci6chtq

409 7 7

技术小达人

|

SQL 分布式计算 Serverless

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

技术小达人

403 0 0

六月的雨在钉钉

|

弹性计算分布式计算 Serverless

全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测

【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测

六月的雨在钉钉

24061 42 43

LKIDTI数据

|

设计模式数据采集分布式计算

企业spark案例 —出租车轨迹分析

企业spark案例 —出租车轨迹分析

LKIDTI数据

736 0 1

扬流

|

SQL 分布式计算监控

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程，包括数据开发和生产调度以及交互式查询等场景。

扬流

57184 7 8

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

aliyun7689123603-22772

|

SQL 分布式计算监控

在hue上部署spark作业

8月更文挑战第10天

aliyun7689123603-22772

361 7 8

热门文章

最新文章

Spark SQL性能优化

Spark SQL玩起来

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

EMR Spark Relational Cache的执行计划重写

云栖社区2019年1月技术活动：PG， Java，Spark等30+场预告【持续更新】

钉钉群直播【Spark Relational Cache 原理和实践】

Spark 环境搭建_下载和解压 Spark 安装包|学习笔记

HiveOnSpark 报错：java.lang.IllegalStateException(Connection to remote Spark driver was lost)‘ Last kno

Spark Mllib里如何将trainDara训练数据文件里提取第M到第N字段（图文详解）

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！