使用CDP遇到的问题1

简介: 使用CDP遇到的问题1

CDP比较新,在使用的过程中会不断地遇到新的问题,在此我们会用一系列的文章把问题和解决方案记录下来,供读者们参考,也方便我们复盘之前遇到的问题。

问题场景

提交hive on Tez的作业后,出现以下错误

Error: Error while compiling statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Vertex failed, vertexName=Map 1, vertexId=vertex_1594429058117_0003_1_00, diagnostics=[Task failed, taskId=task_1594429058117_0003_1_00_000001, diagnostics=[TaskAttempt 0 failed, info=[Container container_1594429058117_0003_02_000003 finished with diagnostics set to [Container failed, exitCode=-1000. [2020-07-11 07:13:44.159]Not able to initialize app directories in any of the configured local directories for app application_1594429058117_0003
]], TaskAttempt 1 failed, info=[Container container_1594429058117_0003_02_000006 finished with diagnostics set to [Container failed, exitCode=-1000. [2020-07-11 07:13:45.559]Not able to initialize app directories in any of the configured local directories for app application_1594429058117_0003

集群之前开启了 Kerberos,为了使用方便我又禁用了 kerberos,以上错误便是在禁用了 kerberos后出现的

问题分析

经过分析后发现这实际上是权限问题,CDP集群未启用 kerberos之前, /yarn/nm/usercache/test的目录权限为 yarn:yarn,启用后为权限变成了 test:yarn,禁用kerberos后,目录权限没有更新,日志无法生成,导致作业失败。

解决方案

查找NodeManager所在节点

查找 yarn.nodemanager.local-dirs所在目录

删除所有NodeManager节点的 usercache目录

重启YARN

以上错误解决,但是又出现下面的错误

Caused by: org.apache.orc.FileFormatException: Malformed ORC file hdfs://cdp1.hadoop.com:8020/warehouse/tablespace/managed/hive/student_tb_txt/22.txt. Invalid postscript.
  at org.apache.orc.impl.ReaderImpl.ensureOrcFooter(ReaderImpl.java:274)
  at org.apache.orc.impl.ReaderImpl.extractFileTail(ReaderImpl.java:580)
  at org.apache.orc.impl.ReaderImpl.<init>(ReaderImpl.java:369)
  at org.apache.hadoop.hive.ql.io.orc.ReaderImpl.<init>(ReaderImpl.java:61)
  at org.apache.hadoop.hive.ql.io.orc.OrcFile.createReader(OrcFile.java:111)
  at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.createOrcReaderForSplit(OrcInputFormat.java:2229)
  at org.apache.hadoop.hive.ql.io.orc.VectorizedOrcAcidRowBatchReader.<init>(VectorizedOrcAcidRowBatchReader.java:143)
  at org.apache.hadoop.hive.ql.io.orc.VectorizedOrcAcidRowBatchReader.<init>(VectorizedOrcAcidRowBatchReader.java:135)
  at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRecordReader(OrcInputFormat.java:2044)
  at org.apache.hadoop.hive.ql.io.HiveInputFormat.getRecordReader(HiveInputFormat.java:427)
  ... 28 more

日志信息显示hive表是ORC格式,而表指向的HDFS数据却不是ORC格式,此前我向HDFS导入了 txt格式的数据,因为造成表格式和数据格式不匹配的错误,需在配置项将managed表格式改为TextFile,然后重启集群。

删除表,重新建立一张表,导入txt格式的数据后,发现Hive作业正常。

相关文章
|
分布式计算 资源调度 Hadoop
|
监控 算法 Java
Linux下如何查看高CPU占用率线程 LINUX CPU利用率计算
目录(?)[-] proc文件系统 proccpuinfo文件 procstat文件 procpidstat文件                                           procpidtasktidstat文件 系统中有关进程cpu使用率的常用命令 ...
9988 0
|
SQL Java 关系型数据库
Hive常见的报错信息
文章列举了Hive常见的几种报错信息,并提供了错误复现、原因分析以及相应的解决方案。
1392 1
|
Linux
CentOS下设置中文编码设置和中文乱码解决
CentOS下设置中文编码设置: 1:安装支持中文: yum -y group install chinese-support 2:修改字符编码配置文件: 默认设置为英文: [root@Tony_ts_tian sysconfig]# pwd /etc/sysconfig [root@Tony_ts_tian sysconfig]# cat i18n LANG="en_US.
5914 0
|
机器学习/深度学习 人工智能 TensorFlow
利用Python和TensorFlow实现简单图像识别
【8月更文挑战第31天】在这篇文章中,我们将一起踏上一段探索人工智能世界的奇妙之旅。正如甘地所言:“你必须成为你希望在世界上看到的改变。” 通过实践,我们不仅将学习如何使用Python和TensorFlow构建一个简单的图像识别模型,而且还将探索如何通过这个模型理解世界。文章以通俗易懂的方式,逐步引导读者从基础到高级,体验从编码到识别的整个过程,让每个人都能在AI的世界中看到自己的倒影。
|
监控 Linux
在Linux中,如何进行系统性能瓶颈分析?
在Linux中,如何进行系统性能瓶颈分析?
|
SQL 消息中间件 Apache
Flink报错问题之使用hive udf函数报错如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
存储 安全 算法
Linux命令sha1sum的详细解析
`sha1sum`是Linux下的命令行工具,用于计算文件的SHA-1哈希值,用于验证文件完整性和安全性。SHA-1算法将数据转化为160位的哈希值,具有唯一性、固定长度和单向性。命令支持二进制或文本模式,可检查校验文件、保存哈希值、验证文件完整性。尽管由于安全问题不推荐用于高安全场景,但在一些场景下仍用于文件校验。最佳实践包括定期验证、保存校验文件和与其他命令结合使用。
|
前端开发 JavaScript 测试技术
前端 JS 经典:Promise 详解
前端 JS 经典:Promise 详解
293 1