Linux环境下 java程序提交spark任务到Yarn报错

简介: Linux环境下 java程序提交spark任务到Yarn报错

1.jpg

摘要

  1. 情况1:JSON解析异常
  2. 情况2:java.lang.InstantiationException spark.sql.driver
  3. 情况3 中kafka:java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/Callback
  4. 情况4 idea启动报错:Connection to node -1 could not be established. Broker may not be available
  5. 情况5中kafka: Caused by: java.nio.channels.UnresolvedAddressException master:8080

情况1:JSON解析异常

image.png

==出错原因==:spark命令提交参数json,到另一个jar发现{ {或者}}消失了,导致解析异常
==解决方案==:https://blog.csdn.net/u010814849/article/details/78752074 双括号间+空格

情况2:java.lang.InstantiationException spark.sql.driver

==出错原因==:spark操作mysql数据库缺少驱动

==解决方案==:
Properties对象设置props.put("driver", "com.mysql.jdbc.Driver");

情况3: 中kafka:java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/Callback

==出错原因==:运行期缺少jar包,问题出在maven程序打包没把依赖打进去

==解决方案==:添加打包插件指定打入依赖jar

<plugin>
    <artifactId>maven-assembly-plugin</artifactId>
    <configuration>
        <descriptorRefs>
            <descriptorRef>jar-with-dependencies</descriptorRef>
        </descriptorRefs>
    </configuration>
    <executions>
        <execution>
            <id>make-assembly</id>
            <phase>package</phase>
            <goals>
                <goal>single</goal>
            </goals>
        </execution>
    </executions>
</plugin>

情况4:idea启动报错:Connection to node -1 could not be established. Broker may not be available

==出错原因==:指定bootstrap-servers前面多了空格,导致层级目录出错

==解决方案==:
image.png

情况5:中kafka: Caused by: java.nio.channels.UnresolvedAddressException master:8080

==出错原因==:ip映射没修改对,导致不认识master

==解决方案==:如果是ambari安装的kafka修改cinfig下面的,如果是自己linux搭建的,需改动kafka下的cinfig下的server.properties,把PLAINTEXT://localhost:6667 -》 改为PLAINTEXT://192.168.20.91:6667

image.png

目录
相关文章
|
监控 数据可视化 Java
调试技巧 - 用Linux命令排查Java问题
总的来说,使用Linux命令来排查Java问题,需要一定的实践经验和理论知识。然而,只要我们愿意花时间深入了解这些工具,我们就能够熟练地使用它们来分析和解决问题。此外,这些工具只是帮助我们定位问题,真正解决问题需要我们对Java和JVM有深入的理解,并能够读懂和分析代码。
618 13
|
12月前
|
Java Linux 开发者
linux 查看java的安装路径
本指南详细介绍Java环境的安装验证与配置方法,包括检查Java版本、确认环境变量JAVA_HOME是否正确配置,以及通过which和readlink命令手动定位Java安装路径。同时提供系统级环境变量配置步骤,并给出多版本管理建议。适用于Linux系统用户,特别是需要在服务器或Docker容器中部署Java环境的开发者。注意操作时需具备相应权限,确保路径设置准确无误。
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
494 4
|
分布式计算 监控 Java
|
分布式计算 Scala 开发工具
spark 之 Scala 环境搭建,开发工具使用
1,首先介绍官网网站 http://scala-lang.org/ 下载windows 的exe直接进行安装就行。 安装后有个本地文档可以使用: 2,工具使用 继续使用eclipse。如果是IDEA直接使用插件就行了。 http://scala-ide.org/download/current.html 安装url: http://download.scala-
1440 0
|
12月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
632 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1207 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
724 79
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
424 0