《Spark大数据分析实战》——2.2节远程调试Spark程序-阿里云开发者社区

《Spark大数据分析实战》——2.2节远程调试Spark程序

2017-05-02 2374

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《Spark大数据分析实战》一书中的第2章，第2.2节远程调试Spark程序，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

2.2　远程调试Spark程序
本地调试Spark程序和传统的调试单机的Java程序基本一致，读者可以参照原来的方式进行调试，关于单机调试本书暂不赘述。对于远程调试服务器上的Spark代码，首先请确保在服务器和本地的Spark版本一致。需要按前文介绍预先安装好JDK和Git。
（1）编译Spark
在服务器端和本地计算机下载Spark项目。
通过下面的命令克隆一份Spark源码：

git clone https:// github.com/apache/spark
然后针对指定的Hadoop版本进行编译：
SPARK_HADOOP_VERSION=2.3.0 sbt/sbt assembly

（2）在服务器端的配置
1）根据相应的Spark配置指定版本的Hadoop，并启动Hadoop。
2）对编译好的Spark进行配置，在conf/spark-env.sh文件中进行如下配置：

export SPARK_JAVA_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=9999"

其中“suspend=y”设置为需要挂起的模式。这样，当启动Spark的作业时候程序会自动挂起，等待本地的IDE附加（Attach）到被调试的应用程序上。address是开放等待连接的端口号。
（3）启动Spark集群和应用程序
1）启动Spark集群：

./sbin/start-all.sh
2）启动需要调试的程序，以Spark中自带的HdfsWordCount为例：
MASTER=spark:// 10.10.1.168:7077
./bin/run-example 
org.apache.spark.examples.streaming.HdfsWordCount
hdfs:// localhost:9000/test/test.txt

3）如图2-7所示，执行后程序会挂起并等待本地的Intellij进行连接，并显示“Listening for transport dt_socket at address: 9999”：

764ab81258f1c72253d02c09e65b848a2862f955

2）在“Run/Debug Conf?igurations”对话框中填入需要连接的主机名和端口号以及其他参数，如图2-8所示。
3）在程序中设置断点进行调试。
通过上面的介绍，用户可以了解如何进行远程调试。对于单机调试方式则和日常开发的单机程序一样，常用方式是设置单机调试断点之后再进行调试，在这里并不再展开介绍。

《Spark大数据分析实战》——2.2节远程调试Spark程序

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《Spark大数据分析实战》——2.2节远程调试Spark程序

华章出版社

热门文章

最新文章

相关课程

相关电子书