羡慕实时数据看板?来看看Python的交互数据分析可视化工具!

简介: Altair是Python统计可视化库,提供了强大而简洁的可视化语法,可以产出漂亮的数据分析可视化结果,并支持交互式操作和勾选局部数据深入分析。本文以实例讲解Altair的数据分析过程,以及交互文档报告的生成。
fce504c3b2483a334da9486c5e9b658b.png
💡 作者: 韩信子@ ShowMeAI
📘 数据分析实战系列https://www.showmeai.tech/tutorials/40
📘 本文地址https://www.showmeai.tech/article-detail/320
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏 ShowMeAI查看更多精彩内容

大家都看过非常酷的实时数据看板,能用最直观的方式给到我们业务数据的信息,如下图所示。

ce4252de094748efb2b8aefa239e6c24~tplv-k3u1fbpfcp-zoom-1.image

而在 Python 中,我们也有非常易用的工具,可以产出漂亮的数据分析可视化结果,并支持交互式操作和勾选局部数据深入分析,ShowMeAI在本篇内容中,将给大家讲解到 📘Altair 这样一个功能强大的 Python 交互式数据分析工具,它能产出如下图所示的交互分析结果:

0787b6e2823668d61297289137cc159b.gif
40f44843aa9611cf6045eb9d45aee5eb.gif
e377e334f66195e58de6ad4db6e08a1e.gif

💡 数据分析实现模板

为了让大家在自己的数据上体验 Altair 的分析结果,我们下面编写的一个函数模板,用于为数据集中的所有特征生成交互式图表。

具体一点说,我们希望它为数值型字段(特征)返回『直方图+散点图』,为类别型特征返回『柱状图+箱线图』,Altair 返回的这些图表结果都是可以交互式操作的。

# 导入工具库
import altair as alt
import pandas as pd

# 忽律数据规模限制
alt.data_transformers.enable('default', max_rows=None)


# 构建chart函数,它读取数据和字段名称,返回一个交互式图表结果
def chart(dataset, column_name, target_var):
    w = 500
    single = alt.selection_single()
    
    # 灰度图与柱状图
    
    # 如果是类别型字段,我们不用分桶
    if (column_name in dataset.select_dtypes(include='object').columns.to_list()):
        a = alt.Chart(dataset).mark_bar().encode(
        alt.X(column_name + ':N', bin=False),
        alt.Y('count()'),
        color = alt.condition(single, alt.value('#4c78a8'), alt.value('lightgray')),
        tooltip=['count()', alt.Tooltip(column_name, bin=False)]
        ).add_selection(single).properties(width=w)
        
    # 如果是数值型字段,我们先分桶
    else:
        a = alt.Chart(dataset).mark_bar().encode(
        alt.X(column_name + ':Q', bin=True),
        alt.Y('count()'),
        color = alt.condition(single, alt.value('#4c78a8'), alt.value('lightgray')),
        tooltip=['count()', alt.Tooltip(column_name, bin=True)]
        ).add_selection(single).properties(width=w)
    
    # 对于类别型字段,我们构建它和目标字段的一个箱线图表;对于数值型字段,我们构建它们和目标字段的散点分布图
    try:        
        if (column_name in dataset.select_dtypes(include='object').columns.to_list()):
            b = alt.Chart(dataset).mark_boxplot().encode( #, title="Boxplot of " + column_name
            alt.X(column_name + ':N'),
            alt.Y(target_var),
            color = alt.condition(single, alt.value('#4c78a8'), alt.value('lightgray')),
            tooltip=[target_var]
            ).add_selection(single).properties(width=w)
        else:
            b = alt.Chart(dataset).mark_point().encode(
            alt.X(column_name + ':Q'),
            alt.Y(target_var),
            color = alt.condition(single, alt.value('#4c78a8'), alt.value('lightgray')),
            tooltip=[target_var]
            ).add_selection(single).properties(width=w)
    except:
        pass
    
    return(a | b)

大家可以把它应用在自己的数据上,得到的结果图如下所示(而且它们是可以用鼠标交互操作的)。在下面的内容里,我们会告诉大家如何把结果存储为 html 报告,大家每次打开 html 结果文件,即可进行交互式操作,而无需每次都重新分析。

913ab22314928ca5e9499e38d8363582.png

💡 数据分析&交互文档报告

下面的代码可以将所有可视化结果编译到一个 html 文档中,打开这个 html 文件,大家就可以得到一个可交互的可视化数据分析平台。

# 把所有的altair图表添加到一个列表里
myl = []
for col in dataset.columns:
    try:
        myl.append(chart(dataset, col, target_var))
    except:
        pass
    else:
        pass

# 编译所有的图表到1个html文件中
a = myl[0]
for i in range(1,len(myl)):
    a = a & myl[i]
a.properties(
    title = 'Feature Histograms & Boxplots'
).configure_axis(labelFontSize=15, titleFontSize=25)
a.save('figures/Feature_Visuals.html')

# 检查是否所有的字段都可以被可视化
print('Features accounted for:', len(myl), 'out of', len(dataset.T))

参考资料

e9190f41b8de4af38c8a1a0c96f0513b~tplv-k3u1fbpfcp-zoom-1.image

目录
相关文章
|
3天前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
|
2天前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
|
3天前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
13 1
|
4天前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
4天前
|
数据采集 Java PHP
使用Python+requests简单实现模拟登录以及抓取接口数据
本文通过Python的requests库演示了如何实现模拟登录和抓取接口数据的过程,包括设置请求头、发送POST请求进行登录以及使用登录后的会话进行GET请求获取数据。
15 1
|
1天前
|
消息中间件 SQL Java
实时数仓 Hologres产品使用合集之如何用python将kafka数据写入
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
4天前
|
JSON 缓存 安全
Python pickle 二进制序列化和反序列化 - 数据持久化
Python pickle 二进制序列化和反序列化 - 数据持久化
10 0
|
4天前
|
API Python
Python FastAPI 获取 Neo4j 数据
Python FastAPI 获取 Neo4j 数据
7 0
|
4天前
|
API 数据库 开发者
Python连接Neo4j工具比较 Neo4j Driver、py2neo
Python连接Neo4j工具比较 Neo4j Driver、py2neo
4 0
|
5天前
|
存储 数据可视化 数据挖掘
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
13 0

热门文章

最新文章