【Hive】(十三)Hive 下 Apache Zeppelin 集成部署

简介: 【Hive】(十三)Hive 下 Apache Zeppelin 集成部署

文章目录


一、Zeppelin简介

Zeppelin特性

Apache Spark 集成

数据可视化


二、Zeppelin的安装部署

使用Beeline连接hive测试

下载 Zeppelin

修改配置文件

启动zeppelin


作为大数据研究分析,我越发觉得有必要能有一款快速上手,能够适合单一数据处理、但后端处理语言繁多的场景相关的开源工具。最近我找到了一款Apache Zeppelin,下面是我初步实战初步收获。


一、Zeppelin简介


Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的,就是来自于当时的demo。


Zeppelin可实现你所需要的:


- 数据采集

- 数据发现

- 数据分析

- 数据可视化和协作


支持多种语言,默认是scala(背后是spark shell),SparkSQL, Markdown 和 Shell。


image.png


甚至可以添加自己的语言支持。如何写一个zeppelin解释器


Zeppelin特性


Apache Spark 集成


Zeppelin 提供了内置的 Apache Spark 集成。你不需要单独构建一个模块、插件或者库。


Zeppelin的Spark集成提供了:


- 自动引入SparkContext 和 SQLContext

- 从本地文件系统或maven库载入运行时依赖的jar包。更多关于依赖载入器

- 可取消job 和 展示job进度


数据可视化


一些基本的图表已经包含在Zeppelin中。可视化并不只限于SparkSQL查询,后端的任何语言的输出都可以被识别并可视化。


Bank


image.png


动态表格


Zeppelin 可以在你的笔记本中动态地创建一些输入格式。

image.png


协作


Notebook 的 URL 可以在协作者间分享。 Zeppelin 然后可以实时广播任何变化,就像在 Google docs 中一样。


image.png


发布


Zeppelin提供了一个URL用来仅仅展示结果,那个页面不包括Zeppelin的菜单和按钮。这样,你可以轻易地将其作为一个iframe集成到你的网站。


image.png


二、Zeppelin的安装部署


需要准备的的软件

[root@hw1 /]# echo $JAVA_HOME;
/opt/soft/jdk180
[root@hw1 /]# echo $HADOOP_HOME;
/opt/soft/hadoop260
[root@hw1 /]# jps
15120 SecondaryNameNode
14739 NameNode
14886 DataNode
15286 ResourceManager
15391 NodeManager
1791 Jps



使用Beeline连接hive测试

在 hive 文件夹下的 conf 里的 hive-site.xml 配置环境变量

[root@hw1 conf]# vi hive-site.xml
<property>
        <name>hive.server2.authentication</name>
                <value>NONE</value>
        </property>
        <property>
                <name>hive.server2.thrift.client.user</name>
                <value>root</value>
                <description>Username to use against thrift client</description>
        </property>
        <property>
                <name>hive.server2.thrift.client.password</name>
                <value>root</value>
                <description>Password to use against thrift client</description>
        </property>


Beeline 要与HiveServer2配合使用 服务端启动hiveserver2 ,客户的通过beeline两种方式连接到hive

nohup hive --service matestore &
hiveserver2
beeline -u jdbc:hive2://localhost:10000/default -n root
!quit退出


下载 Zeppelin

wget http://archive.apache.org/dist/zeppelin/zeppelin-0.7.3/zeppelin-0.8.1-bin-all.tgz


解压 本文安装路径十 /opt/soft 并改名 zeppelin081

解压完毕后查看

[root@hw1 soft]# ls
derby.log  fun.jar    hive110  shoppings-1.0-SNAPSHOT.jar
encry.jar  hadoop260  jdk180   zeppelin081
[root@hw1 soft]#


配置环境变量 拷贝hive配置文档

[root@hw1 soft]# cp /opt/soft/hive110/conf/hive-site.xml /opt/soft/zeppelin081/conf/
[root@hw1 soft]# cp /opt/soft/hadoop260/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.2.jar /opt/soft/zeppelin081/interpreter/jdbc/
[root@hw1 soft]# cp /opt/soft/hive110/lib/hive-jdbc-1.1.0-cdh5.14.2-standalone.jar /opt/soft/zeppelin081/interpreter/jdbc/


修改配置文件


在conf文件夹目录下

[root@hw1 conf]# cp zeppelin-site.xml.template zeppelin-site.xml
[root@hw1 conf]# cp zeppelin-env.sh.template zeppelin-env.sh
vi zeppelin-env.sh
// 修改
export JAVA_HOME=/opt/soft/jdk180
export HADOOP_CONF_DIR=/opt/soft/hadoop260/etc/hadoop
vi zeppelin-site.xml
// 将端口号修改 避免与tomcat重复
<property>
  <name>zeppelin.server.addr</name>
  <value>192.168.56.122</value>
  <description>Server address</description>
</property>
<property>
  <name>zeppelin.server.port</name>
  <value>9090</value>
  <description>Server port.</description>
</property>


启动zeppelin

[root@hw1 ~]# cd /opt/soft/zeppelin081/bin
[root@hw1 bin]# ls
common.cmd     functions.sh            interpreter.sh       zeppelin-daemon.sh
common.sh      install-interpreter.sh  stop-interpreter.sh  zeppelin.sh
functions.cmd  interpreter.cmd         zeppelin.cmd
[root@hw1 bin]# ./zeppelin-daemon.sh start
[root@hw1 bin]# ./zeppelin-daemon.sh start
Zeppelin start                                             [  OK  ]


启动成功 则可通过浏览器以及配置的端口号查看


image.png

目录
相关文章
|
2月前
|
Java Maven Docker
gitlab-ci 集成 k3s 部署spring boot 应用
gitlab-ci 集成 k3s 部署spring boot 应用
|
4月前
|
Kubernetes Devops 持续交付
DevOps实践:使用Docker和Kubernetes实现持续集成和部署网络安全的守护盾:加密技术与安全意识的重要性
【8月更文挑战第27天】本文将引导读者理解并应用DevOps的核心理念,通过Docker和Kubernetes的实战案例,深入探讨如何在现代软件开发中实现自动化的持续集成和部署。文章不仅提供理论知识,还结合真实示例,旨在帮助开发者提升效率,优化工作流程。
|
2月前
|
数据处理 Apache 数据库
将 Python UDF 部署到 Apache IoTDB 的详细步骤与注意事项
【10月更文挑战第21天】将 Python UDF 部署到 Apache IoTDB 中需要一系列的步骤和注意事项。通过仔细的准备、正确的部署和测试,你可以成功地将自定义的 Python UDF 应用到 Apache IoTDB 中,为数据处理和分析提供更灵活和强大的支持。在实际操作过程中,要根据具体情况进行调整和优化,以确保实现最佳的效果。还可以结合具体的代码示例和实际部署经验,进一步深入了解和掌握这一过程。
26 2
|
2月前
|
SQL 分布式计算 Hadoop
Apache Hive 帮助文档
Apache Hive 帮助文档
80 9
|
2月前
|
运维 监控 Devops
DevOps实践:持续集成与部署的自动化之旅
【10月更文挑战第7天】在软件开发领域,DevOps已成为提升效率、加速交付和确保质量的关键策略。本文将深入探讨如何通过实施持续集成(CI)和持续部署(CD)来自动化开发流程,从而优化运维工作。我们将从基础概念入手,逐步过渡到实际操作,包括工具选择、流程设计以及监控和反馈机制的建立。最终,我们不仅会展示如何实现这一自动化流程,还会讨论如何克服常见的挑战,以确保成功实施。
66 9
|
2月前
|
Java 测试技术 API
如何在 Apache JMeter 中集成 Elastic APM
如何在 Apache JMeter 中集成 Elastic APM
39 1
|
2月前
|
监控 Devops 测试技术
DevOps实践:持续集成与部署的自动化之路
【9月更文挑战第30天】在软件工程的世界中,DevOps已成为提升开发效率、确保软件质量和加快交付速度的关键策略。本文将深入探讨如何通过自动化工具和流程实现持续集成(CI)与持续部署(CD),从而优化软件开发周期。我们将从基础概念出发,逐步深入到实际操作,最终展示如何构建一个高效的自动化流水线,以支持快速迭代和高质量发布。
58 7
|
3月前
|
Devops jenkins Java
DevOps实践:持续集成和部署的自动化之旅
【9月更文挑战第20天】在软件开发的世界里,速度和质量是至关重要的。本文将带领读者踏上一场自动化之旅,深入探索DevOps文化中的两大支柱——持续集成(CI)和持续部署(CD)。我们将通过一个实际的案例,展示如何利用现代工具和技术实现代码从编写到部署的无缝转换,确保软件交付的高效性和可靠性。准备好让你的开发流程变得更加流畅和高效了吗?让我们开始吧!
|
2月前
|
安全 Java 测试技术
ToB项目身份认证AD集成(二):快速搞定window server 2003部署AD域服务并支持ssl
本文详细介绍了如何搭建本地AD域控测试环境,包括安装AD域服务、测试LDAP接口及配置LDAPS的过程。通过运行自签名证书生成脚本和手动部署证书,实现安全的SSL连接,适用于ToB项目的身份认证集成。文中还提供了相关系列文章链接,便于读者深入了解AD和LDAP的基础知识。
|
3月前
|
缓存 数据可视化 jenkins
推荐2款实用的持续集成与部署(CI&CD)自动化工具
推荐2款实用的持续集成与部署(CI&CD)自动化工具
198 1

推荐镜像

更多