Spark On HBase Idea远程调试

简介: 本文介绍如何在本地IDEA远程调试Spark On HBase。 前提条件: 1、已经安装了Intellij IDEA,Git、Maven。2、HBase集群开通了外网地址。3、HBase集群为IDEA运行的机器开通了白名单。

本文介绍如何在本地IDEA远程调试Spark On HBase。

前提条件:

1、已经安装了Intellij IDEA,Git、Maven。
2、HBase集群开通了外网地址。
3、HBase集群为IDEA运行的机器开通了白名单。

说明:

本实例用到的版本

软件名称 版本
Intellij IDEA community 2018.3.1
操作系统:macOS/Windows mac:10.13.6; Windows 10
jdk 1.8.0_25
scala 2.11.8
Maven 3.3.9

Idea 远程调试步骤

步骤 1: 下载样例代码

使用git clone 命令下载代码样例代码。

git clone https://github.com/aliyun/aliyun-apsaradb-hbase-demo.git

步骤 2: 导入代码到IDEA。

打开IDEA,选择"File">"Open...",选择步骤 1下载的代码:aliyun-apsaradb-hbase-demo

步骤 3: 设置运行配置

本实例Debug的类为:com.aliyun.spark.hbase.SparkOnHBaseSparkSession
点击IDEA运行按钮,选择"Edit Configurations..."进入配置页面,配置内容如下页面:
image

主要配置参数说明:

参数名称 说明
Main class com.aliyun.spark.hbase.SparkOnHBaseSparkSession 运行主类
VM options -Dspark.master=local Spark 本地运行
Program arguments hb-xxx:2181,hb-xxx:2181,hb-xx:2181 mytable spark_on_hbase 三个参数分别为:ZK链接地址(外网地址),hbase侧的表名 ,spark侧的表名
Use classpath of module spark-examples 同时勾选“Include dependencie是with "Provided" scope”

步骤 4:开始Debug

在类com.aliyun.spark.hbase.SparkOnHBaseSparkSession的如下位置设置断点:
image

搜索类:org.apache.hadoop.hbase.spark.DefaultSource,并在如下位置设置断点:
image

然后右键类com.aliyun.spark.hbase.SparkOnHBaseSparkSession,选择“Debug SparkOnHBaseSparkSession”开始Debug。如下:
image

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
6月前
|
Java 网络安全 网络协议
IDEA实现java远程调试
IDEA实现java远程调试
1145 3
|
5月前
idea远程调试debug
配置idea远程debug
28 0
|
5月前
|
Java Linux
IDEA远程调试Centos部署的jar包
IDEA远程调试Centos部署的jar包
|
5月前
|
分布式计算 资源调度 Java
Scala+Spark+Hadoop+IDEA实现WordCount单词计数,上传并执行任务(简单实例-下)
Scala+Spark+Hadoop+IDEA实现WordCount单词计数,上传并执行任务(简单实例-下)
58 0
|
5月前
|
分布式计算 Hadoop Scala
Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数(简单实例-上)
Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数(简单实例-上)
49 0
|
6月前
|
SQL 分布式计算 Java
IDEA 打包 Spark 项目 POM 文件依赖
这是一个 Maven POM 示例,用于构建一个使用 Spark 与 Hive 的项目,目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖,包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包,生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围,如 `compile`(默认),`provided`,`runtime`,`test` 和 `system`。
95 0
|
6月前
|
分布式计算 Java Scala
spark 与 scala 的对应版本查看、在idea中maven版本不要选择17,弄了好久,换成11就可以啦
spark 与 scala 的对应版本查看、.在idea中maven版本不要选择17,弄了好久,换成11就可以啦
406 2
|
6月前
IDEA远程调试Remote Debug
IDEA远程调试Remote Debug
56 0
|
6月前
|
分布式计算 Kubernetes Java
spark on k8s native
spark on k8s native
|
6月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问