使用 Apache Superset 探索数据
在本教程中,我们将通过研究一个真实的数据集来介绍 Apache Superset 中的关键概念,该数据集包含一个英国组织的员工在2011年的飞行。每趟航班的信息如下:
- 旅客部门。在本教程中,部门已重命名为“橙色”,“黄色”和“紫色”。
- 机票费用。
- 旅游舱(经济舱,高级经济舱,商务舱和头等舱)。
- 票是单程票还是来回票。
- 旅行日期。
- 有关始发地和目的地的信息。
- 起点和终点之间的距离,以公里(km)为单位。
启用上传 CSV 功能
编辑 Databases
列表的 examples
数据库记录:
勾选 Allow Csv Upload
然后,点击底部的保存
按钮。
获取并加载数据
tutorial_flights.csv 数据下载
这里依次输入如下值:
- Table Name:
tutorial_flights
- CSV File:
tutorial_flights.csv
- Database:
examples
- Parse Dates:
Travel Date
最后单击底部的 保存
按钮。
Table(表格可视化)
显示航班数量和每个旅行舱位的费用。
创建一个 Chart
选择数据源 tutorial_flights
选择可视化类型为 Table
单击 CREATE NEW CHART
依次填写如下字段:
- Time Range:
No filter
- 分组:
Travel Class
- 指标:
COUNT(*)
SUM(Cost)
然后,单击顶部的 RUN
按钮:
单击 SAVE
按钮:
图表保存,输入如下值:
- 另存为:
Tutorial Table
- 添加到新的看板:
Tutorial Dashboard
单击 保存并转到看板
看板基础
你也可以编辑看板
Pivot Table(透视表)
您将创建一个表,显示前六个月按部门、按旅行舱级别的每月机票支出。
- 数据源:
tutorial_flights
- 图表类型:
透视表
- 时间字段:
Travel Date
- 时间粒度:
month
- Time Range:
2011-01-01
,2011-06-30
- 指标:
SUM(Cost)
- 分组:
Time
- 列:
Department
,Travel Class
保存图表
Line Chart(折线图)
我们将创建一个折线图,以了解整个数据集上按月计算的机票平均价格。
- 数据源:
tutorial_flights
- 图表类型:
Line Chart
- 时间字段:
Travel Date
- 时间粒度:
month
- Time Range:
No filter
- 指标:
AVG(Cost)
- 分组:
Ticket Single or Return
保存图表
Markup
这个组件,可以让你书写 Markdown
文本。
Markdown Cheatsheet
编辑
Filter box(筛选盒)
我们将创建一个过滤器,它允许我们查看那些从特定国家出发的航班。
保存图表
发布面板