本地部署 zeppelin 0.10.1

简介: 本地部署 zeppelin 0.10.1

碎碎念

  • Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的notebook
  • Zeppelin提供了数据可视化的框架
  • 可实现你所需要的
  • 数据采集
  • 数据发现
  • 数据分析
  • 数据可视化和协作

当前最新版为 0.10.1 版本,官方提供两种安装包,一种是包含所有解析器的(1.6G),另一种是带有 spark 和网络下载解析器的包(568M)

支持的解析器

  • alluxio
  • angular
  • beam
  • bigquery
  • cassandra
  • elasticsearch
  • file
  • flink
  • flink-cmd
  • geode
  • groovy
  • hazelcastjet
  • hbase
  • ignite
  • influxdb
  • java
  • jdbc
  • jupyter
  • kotlin
  • ksql
  • kylin
  • lens
  • livy
  • md
  • mongodb
  • neo4j
  • pig
  • python
  • r
  • sap
  • scalding
  • scio
  • sh
  • spark
  • spark-submit
  • sparql
  • submarine

部署 zeppelin

下载全量解析器安装包

wget --no-check-certificate -c \
https://dlcdn.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz
tar xf zeppelin-0.10.1-bin-all.tgz

安装 java 环境

zeppelin 部署依赖 java 环境

yum install -y java-1.8.0-openjdk

修改配置文件

cd zeppelin-0.10.1-bin-all
cp conf/zeppelin-env.sh.template conf/zeppelin-env.sh
vim conf/zeppelin-env.sh

官方给出的配置文件模板是全注释的,这里标注几个需要注意的参数

# 定义 java 命令所在路径,yum 安装的可以不写,下载的 Oracle java 需要配置一下
export JAVA_HOME=
# zeppelin 访问地址,如果不配置,默认值 127.0.0.1,也可以写 0.0.0.0
export ZEPPELIN_ADDR=
# zeppelin web 页面访问的端口,默认值 8080,如果和本机端口冲突,可以修改这里的参数
export ZEPPELIN_PORT=
# sh 解析器绑定的机器 ip,只能写一个,不写的话,会在本机随机获取一个 ip 地址 [多网卡或者有 docker 就比较尴尬了]
export ZEPPELIN_LOCAL_IP=
# zeppelin 日志目录,默认是当前路径
export ZEPPELIN_LOG_DIR=
# zeppelin pid 记录目录,默认记录在 ${ZEPPELIN_HOME}/run 目录下
export ZEPPELIN_PID_DIR=
# notebook 存储路径
export ZEPPELIN_NOTEBOOK_DIR=

修改 xml 配置文件

cp conf/zeppelin-site.xml.template conf/zeppelin-site.xml
vim conf/zeppelin-site.xml

没特殊需求,可以不配置

  • zeppelin 默认的索引路径在 /tmp 目录下,有需求可以修改成自己定义的路径,做统一管理
<property>
  <name>zeppelin.search.index.path</name>
  <value>/tmp/zeppelin-index</value>
  <description>path for storing search index on disk.</description>
</property>
  • 关闭匿名访问模式 [默认为匿名登录,并且 zeppelin-site.xml 文件内没有这一段内容,需要自己增加] (注意 xml 格式)
  • false - 表示关闭匿名模式
  • true - 表示开启匿名模式
<property>
  <name>zeppelin.anonymous.allowed</name>
  <value>false</value>
  <description>Anonymous user allowed by default</description>
</property>
  • 关闭匿名模式后,需要配置用户名和密码
cp conf/shiro.ini.template conf/shiro.ini
vim conf/shiro.ini

配置 <用户名> = <密码>,<角色>

更多细节可以查看官方文档:Apache Shiro Configuration

admin = admin,admin

启动 zeppelin

bash bin/zeppelin-daemon.sh start

通过浏览器访问配置的 ip 加端口来访问 zeppelin

目录
相关文章
|
SQL 分布式计算 数据可视化
Apache Zeppelin系列教程第一篇——安装和使用
Apache Zeppelin系列教程第一篇——安装和使用
756 0
|
SQL 前端开发 流计算
flink写入数据到hudi的四种方式
本文描述flink写入数据到hudi的四种方式
|
6月前
|
存储 数据采集 机器学习/深度学习
新闻聚合项目:多源异构数据的采集与存储架构
本文探讨了新闻聚合项目中数据采集的技术挑战与解决方案,指出单纯依赖抓取技术存在局限性。通过代理IP、Cookie和User-Agent的精细设置,可有效提高采集策略;但多源异构数据的清洗与存储同样关键,需结合智能化算法处理语义差异。正反方围绕技术手段的有效性和局限性展开讨论,最终强调综合运用代理技术与智能数据处理的重要性。未来,随着机器学习和自然语言处理的发展,新闻聚合将实现更高效的热点捕捉与信息传播。附带的代码示例展示了如何从多个中文新闻网站抓取数据并统计热点关键词。
250 2
新闻聚合项目:多源异构数据的采集与存储架构
Zeppelin安装教程
Zeppelin安装教程
149 1
|
机器学习/深度学习 分布式计算 大数据
|
机器学习/深度学习 数据可视化 搜索推荐
12个最常用的matplotlib图例 !!
12个最常用的matplotlib图例 !!
191 1
|
SQL 前端开发 Java
迄今为止最好用的Flink SQL教程:Flink SQL Cookbook on Zeppelin
无需写任何代码,只要照着这篇文章轻松几步就能跑各种类型的 Flink SQL 语句。
迄今为止最好用的Flink SQL教程:Flink SQL Cookbook on Zeppelin
|
SQL 机器学习/深度学习 分布式计算
spark与pyspark教程(一)
spark与pyspark教程(一)
648 0
|
资源调度 分布式计算 数据可视化
Flink on zepplien的安装配置
Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的notebook。Zeppelin提供了数据可视化的框架。Flink结合zepplien使用可以让提交Flink任务变的简单化. 从Zeppelin 0.9开始将正式支持Flink 1.10。Flink是一个批流统一的计算引擎,本文将从第一个wordcount的例子为起点来介绍一下Flink on zeplien(on yarn)的配置和使用. 版本说明: Flink 1.11.0
|
消息中间件 SQL 搜索推荐
干货|从 ClickHouse 到 ByteHouse:实时数据分析场景下的优化实践
干货|从 ClickHouse 到 ByteHouse:实时数据分析场景下的优化实践