Hue兼容Livy通过Rest请求向Spark发送任务

简介: Hue兼容Livy通过Rest请求向Spark发送任务

Hue兼容Livy通过Rest请求向Spark发送任务

参考hue官方文档

https://gethue.com/how-to-use-the-livy-spark-rest-job-server-for-interactive-spark-2-2/

环境准备

必须安装JDK

必须安装HADOOP

必须安装Spark

安装过程

下载

wget http://archive.cloudera.com/beta/livy/livy-server-0.3.0.zip

解压

unzip ./livy-server-0.3.0.zip

修改conf/livy.conf

#默认local模式
#增加如下配置
livy.server.session.factory = yarn

修改conf/livy-env.sh

#增加如下配置
export SPARK_HOME=/opt/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf
export SPARK_CONF_DIR=/opt/spark/conf

启动livy-server服务

#写上start是后台运行
bin/livy-server start

查看服务进程

jps
20229 LivyServer

Hue兼容

修改hue.ini

#添加如下内容

 [spark]
 
 # livy 服务器域名
 livy_server_host=ddc001.lqad

 # livy 服务器端口
 livy_server_port=8998

 # Configure Livy to start in local 'process' mode, or 'yarn' workers.
 livy_server_session_kind=yarn

使用样例

引入第三方依赖

import util.Random
val r = new Random
println(r.nextInt(10))

运行结果

在这里插入图片描述

创建spark任务

var counter = 0
val data = Array(1, 2, 3, 4, 5)
var rdd = sc.parallelize(data)
rdd.map(x=>x+1).collect()

运行结果

在这里插入图片描述

相关文章
|
11月前
|
存储 缓存 分布式计算
Spark任务OOM问题如何解决?
大家好,我是V哥。在实际业务中,Spark任务常因数据量过大、资源分配不合理或代码瓶颈导致OOM(Out of Memory)。本文详细分析了各种业务场景下的OOM原因,并提供了优化方案,包括调整Executor内存和CPU资源、优化内存管理策略、数据切分及减少宽依赖等。通过综合运用这些方法,可有效解决Spark任务中的OOM问题。关注威哥爱编程,让编码更顺畅!
559 3
|
6月前
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
181 4
|
6月前
|
分布式计算 监控 Java
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
262 2
|
7月前
|
分布式计算 Spark
【赵渝强老师】Spark RDD的依赖关系和任务阶段
Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用,如map、filter操作;宽依赖则指父RDD的每个分区被多个子RDD分区使用,如分组和某些join操作。窄依赖任务可在同一阶段完成,而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。
269 15
|
12月前
|
消息中间件 分布式计算 Java
Linux环境下 java程序提交spark任务到Yarn报错
Linux环境下 java程序提交spark任务到Yarn报错
142 5
|
SQL 机器学习/深度学习 分布式计算
Spark适合处理哪些任务?
【9月更文挑战第1天】Spark适合处理哪些任务?
364 3
|
存储 分布式计算 供应链
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
|
SQL 分布式计算 监控
在hue上部署spark作业
8月更文挑战第10天
|
SQL 分布式计算 监控
在hue上部署spark作业
7月更文挑战第11天
303 3

热门文章

最新文章