【大数据】可视化仪表板 - Superset的安装和使用

本文涉及的产品
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
简介: 【大数据】可视化仪表板 - Superset的安装和使用

一、Superset简介

Apache Superset是一个现代化的、企业级的数据探索和可视化平台,旨在帮助数据工程师和科学家在Web界面上创建和共享各种类型的数据洞察。

1. 软件作用

Apache Superset 的底层是一个 Flask 应用程序,其核心功能包括数据可视化、仪表板制作、数据切片和切块、以及 SQL Lab。在 Superset 的应用结构中,Flask 应用程序处理路由、视图函数和模板渲染,而 SQLAlchemy 提供了对多种数据库的抽象访问。

Apache Superset 支持多种数据源,可以连接到任何 SQL-speaking 数据库或数据引擎(如 MySQL、Postgres、BigQuery、Redshift 等),同时也支持各种 大数据组件 如 Hive、Presto、Druid 等,只需要安装部分组件即可。

2. 软件特点

  • 具有丰富的数据可视化组件库,提供了多种图表类型,可以满足各种数据展示需求
  • 使用SQL Lab可以直接执行SQL查询,方便快捷
  • 采用响应式设计,对移动设备友好
  • 具有强大的数据权限管理功能,可以精细控制每个用户的数据访问权限

二、Superset安装

1. 前置环境

软件需要运行在Python 3.6及以上版本,推荐使用虚拟环境,官方给出的安装步骤:https://superset.apache.org/docs/installation/installing-superset-from-scratch/

  • virtualenv安装:pip install virtualenv
  • 创建虚拟环境:python3 -m venv superset
  • 激活虚拟环境:. superset/bin/activate
  • 前置环境安装

开始安装前,需要确保系统环境以及python虚拟环境已经安装了以下内容:

sudo apt-get update
sudo apt-get install build-essential
sudo apt-get install python3-dev
pip install wheel

2. 安装配置

  • 安装superset:pip install apache-superset

  • 前置设定
# 推荐添加到环境变量配置文件中
export FLASK_APP=superset
superset fab create-admin

此时会遇到一个警告,我可以可以按照如下步骤来解决:

touch superset_config.py

# 推荐添加到环境变量配置文件中
export SUPERSET_CONFIG_PATH=/home/hadoop/superset/superset_config.py
superset fab create-admin

配置SUPERSET_CONFIG_PATH的路径,指向刚刚创建的config文件,完成后再次进行启动。

  • 报错解决

笔者在执行命令的过程中出现如下报错:

这是由于 sqlparse 不兼容导致的,默认安装了0.4.4,可以通过以下命令确认版本:

pip show sqlparse

此时需要降级到0.4.3,这是由于我目前安装的superset限制版本区间最低为0.4.3,如果大家选择了其它的版本请根据实际情况处理:

pip uninstall sqlparse
pip install sqlparse==0.4.3

3. 启动访问

前面的初始化步骤完成后可以导入一些样例数据,然后进行启动,在执行所有操作前需要先进行初始化。

  • 导入样例数据
# 初始化命令
superset db upgrade
# 加载数据,耗时较长
superset load_examples
  • superset构建

首先需要下载前端项目的源代码,然后确保系统已经安装了Node环境。小编当前使用的版本要求node 16.9.1以上,npm 7.5.4 || 8.1.2 以上,这里以安装node 16.x为例。

git clone https://github.com/apache/superset.git

强烈提醒:请保证NodeJS的大版本一致,否则需要自己想办法解决各种构建问题。如果遇到RpcIpcMessagePortClosedError错误,一般为内存不足导致,请尝试增加内存。

# 安装构建所需环境
sudo apt  install curl
curl -fsSL https://deb.nodesource.com/setup_16.x | sudo -E bash -
sudo apt-get install -y nodejs
sudo npm install -g npm@latest
sudo npm install -g node-gyp
# ARM架构需要手动安装chromium-browser
sudo apt install chromium-browser
# 构建前端项目
npm ci
# 预先解决一些构建中遇到的问题
npx update-browserslist-db@latest
# 该步骤耗时较长 - 需要保证可用内存在4GB以上
npm run build
  • superset启动
# 切换到superset-frontend的上一级目录
cd ..
superset run -p 8088 --with-threads --reload --debugger

  • superset访问

启动后,在浏览器访问8088端口即可,使用此前初始化是设定的密码进行登录:

可以查看到,已经显示了此前导入过的样例:

三、数据源配置

在操作界面右上角,支持多种数据源添加方式,本文将介绍数据库连接方式。

1. PostgreSQL

  • 依赖安装

在连接PostgreSQL时,需要在项目启动之前,先安装相关依赖。激活superset虚拟环境后执行如下命令:

pip install psycopg2-binary
  • 连接配置

在配置界面,默认支持PostgreSQL和SQLite两种直接导入方式:

选择PostgreSQL进入配置界面:

连接成功后,可以开始创建DATASET,或者也可以使用:

点击FINISH后,再次点击右上角的➕,此时Data选单下出现Create dataset

2. MySQL

当已经添加了一个数据库连接后,想要再次添加另外的数据源,可以按照如下步骤操作:

然后在操作界面中可以再次看到添加DATABASE的按钮,如图:

  • 依赖安装

在连接MySQL时,需要在项目启动之前,先安装相关依赖。激活superset虚拟环境后执行如下命令:

sudo apt-get install libmysqlclient-dev
pip install mysqlclient
  • 连接配置

在配置界面,选择Other,通过连接字符串来直接配置:

连接字符串为SQLAlchemy URI格式 -> mysql://username:password@hostname:port/database

3. Hive

  • 依赖安装

在连接Hive时,需要在项目启动之前,先安装相关依赖。激活superset虚拟环境后执行如下命令:

pip install PyMySQL
pip install pyhive
pip install thrift
sudo apt-get install python-dev libsasl2-dev
pip install sasl
pip install thrift_sasl

连接前确保Hive相关服务已经启动,具体步骤可以参考:Hive 3.x的安装部署 - Ubuntu

  • 连接配置

在配置界面,选择Other,通过连接字符串来直接配置:

连接字符串为SQLAlchemy URI格式 -> hive://username:password@hostname:port/database

在连接测试通过后,点击CONNECT按钮可能会出现一个无法连接的异常,但是小编实际测试后发现并没有任何影响。此时连接已经成功创建,我们只要将弹窗关闭,然后刷新页面即可,后续的使用也一切正常。

4. 其它说明

当我们不断的向superset的虚拟环境添加各种连接所需的依赖,并且创建相应类型的连接后,操作界面就会变得越来越丰富:

当我们需要的数据源类型基本稳定后,就可以将superset进程挂在后台运行了,这样我们可以专注于可视化的工作:

# 进入到对应目录后执行
nohup superset run -p 8088 --with-threads --reload --debugger &

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
7月前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
8月前
|
机器学习/深度学习 数据采集 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
本文探讨Java大数据可视化在城市空气质量监测与污染溯源中的创新应用,结合多源数据采集、实时分析与GIS技术,助力环保决策,提升城市空气质量管理水平。
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
|
7月前
|
存储 数据可视化 数据挖掘
基于大数据的电影可视化、推荐与票房预测系统
本系统基于Python与Flask框架,结合Echarts等技术,实现电影数据的采集、存储与可视化展示。通过对票房、评分、评论等数据的分析,生成图表与词云,帮助用户直观理解电影市场趋势,支持决策制定与观影推荐,提升电影行业的数据分析能力与用户体验。
|
8月前
|
存储 监控 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业生产运营监控与决策支持中的应用(228)
本文探讨了基于 Java 的大数据可视化技术在企业生产运营监控与决策支持中的关键应用。面对数据爆炸、信息孤岛和实时性不足等挑战,Java 通过高效数据采集、清洗与可视化引擎,助力企业构建实时监控与智能决策系统,显著提升运营效率与竞争力。
|
7月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
7月前
|
机器学习/深度学习 搜索推荐 数据可视化
基于python大数据的音乐可视化与推荐系统
本研究基于Python实现音乐数据采集、清洗、分析与可视化,并结合协同过滤算法构建个性化推荐系统。通过Echarts展示音乐热度及用户偏好,提升用户体验,助力音乐产业智能化发展。
|
8月前
|
搜索推荐 算法 Java
基于大数据的旅游可视化及推荐系统
本项目围绕数字化旅游系统的开发与应用展开研究,结合SpringBoot、Layui、MySQL、Java等技术,构建基于协同过滤算法的智能推荐系统。内容涵盖项目背景、研究现状、开发工具及功能结构,旨在提升旅游体验与管理效率,推动旅游业数字化转型。
|
7月前
|
搜索推荐 算法 大数据
基于python大数据的旅游景点可视化与推荐系统
本系统基于大数据与网络技术,构建个性化旅游推荐平台。通过收集用户偏好及行为数据,结合机器学习算法,提供精准的旅游目的地、住宿及交通推荐,旨在优化旅游信息传递,提升用户决策效率与旅行体验。