Zeppelin调试Spark程序

简介: Zeppelin调试Spark程序

1 什么是Zeppelin

详细安装入门概述:https://blog.csdn.net/ZGL_cyy/article/details/119342340


a. Apache Zeppelin 是一个基于网页的交互式数据分析开源框架。Zeppelin提供了数据分析、数据可

视化等功能, 支持的图表如下图所示66cc223ea5b24ed5b59d574394a466b2.png

b. Zeppelin 也是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可

协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、

SparkSQL、Hive、hbase、elasticsearch、JDBC等等;

## 参数说明
# spark-submit 把程序提交到spark集群的命令, 可以配置PATH, 使用相对路径或者绝对路径使用该命
# --class 程序运行主类
# --master spark master地址( 集群地址 )
# wordcount.jar 你的程序
# --jars 指定依赖
spark-submit  --class cn.itcast.xc.first.WordCount --master spark://xc-online-
spark:7077 wordcount.jar

2 Zeppelin配置spark

启动zeppein容器, 如果已启动, 此步可跳过, 继续下一步

# 在docker-compose.yml文件目录执行bash命令, 这里的路径是: /opt/cdh5.14.0
docker-compose up -d xc-online-zeppelin

访问地址: http://xc-online:18080/

配置spark属性

3 Zeppein运行spark程序

3.1 创建spark notebook

1, 点击左上角Notebook --> 弹出窗口点击 Create new note --> 弹出窗口找到spark,名字任意起个就

行 点击Create创建即可 , 操作如下:

3.2 使用SparkSQL查看有多少数据库:

这里使用的是spark sql进行查询数据库操作!

3.3 使用SparkCore执行word count

这里使用的是 spark core 代码如下:

%spark
val input = sc.textFile("hdfs://xc-online-hadoop:9000/word.txt")
val counts = input.flatMap(line => line.split("\t")).map(word => {(word,
1)}).reduceByKey(_ + _).sortBy(_._2, false)
counts.collect().foreach(println(_))

目录
相关文章
|
分布式计算 Java Scala
181 Spark IDEA中编写WordCount程序
181 Spark IDEA中编写WordCount程序
69 0
|
分布式计算 算法 Shell
180 Spark程序执行
180 Spark程序执行
55 0
|
7月前
|
Java Shell 分布式数据库
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
164 0
|
3月前
|
消息中间件 分布式计算 Java
Linux环境下 java程序提交spark任务到Yarn报错
Linux环境下 java程序提交spark任务到Yarn报错
51 5
|
2月前
|
SQL 分布式计算 大数据
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
53 0
|
7月前
|
分布式计算 监控 Java
Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序
Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序
100 0
|
7月前
|
分布式计算 大数据 Java
大数据必知必会系列——面试官问能不能手写一个spark程序?[新星计划]
大数据必知必会系列——面试官问能不能手写一个spark程序?[新星计划]
83 0
|
7月前
|
分布式计算 Java 测试技术
Spark 单元测试报Error:(26, 16) java: 程序包sun.misc不存在
Spark 单元测试报Error:(26, 16) java: 程序包sun.misc不存在
139 0
|
7月前
|
分布式计算 监控 测试技术
Spark的错误处理与调试技巧
Spark的错误处理与调试技巧
|
7月前
|
分布式计算 资源调度 监控
Spark应用程序的结构与驱动程序
Spark应用程序的结构与驱动程序