这个云ETL工具配合Python轻松实现大数据集分析,附案例

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 这个云ETL工具配合Python轻松实现大数据集分析,附案例

一、Python处理大数据集的痛点

Python是数据分析最好的工具之一,像pandas、numpy、matplotlib等都是Python生态的数据分析利器,但处理大数据集是Python的一大痛点,特别是你在本地电脑进行IO操作时非常慢,像pandas读取上G的文件就得几分钟。

我之前参加过一个交通类的数据科学比赛,主办方让参赛者从官网下载几十G的原始CSV文件,这些数据存在电脑里,然后通过Python来读取、清洗、可视化、建模,每一步都很慢,当时用了多线程、分块读取等各种方法才勉强完成比赛。

当然市面上很多工具可以提升数据处理的效率,比如Pyspark、Modin、Polars等,确实提升不少,但依旧受限于电脑的内存和性能限制。

二、使用下秒数据机器人实现大数据集ETL

既然本地电脑不行,那就只能上云,我的需求是云工具必须要能快速存取数据,且支持SQL查询和Python调用,这样既能在云上完成SQL数据清洗,还能通过Python调用API实现数据抽取。

最近刚好发现了这样一个工具-下秒数据机器人,不光支持大数据集快速上传、SQL查询、Python API调用,还能实现AI数据问答、自助分析等功能,非常方便。 aa9434cc408298a6d6756d94099c9f2b.jpg

a) 数据集导入

下秒数据机器人支持CSV、Excel、XML、Json及各种数据库等数据导入 d1a3534859f2ec721311cfc363cda640.jpg

下秒数据机器人网站链接:

http://nexadata.cn/mobileSetMessage

如果对数据导入有问题,可以联系下秒的技术支持

b) SQL数据查询

数据导入过程中可以使用SQL进行数据清洗,也可以查询已经导入的数据集 cd115ece636cab101b910dc55b060fb7.jpg

c) Python API调用

几行代码就可以实现Python API数据读取,还支持Java、Javascript、PHP语言调用,再也不用纠结本地电脑内存了。 c446352a305c69a9887a8d5817abae63.jpg

d) AI数据问答

通过文本提问形式,实现数据的分析和提取

cda3ef111f4a761292cc829c582b6824.jpg

e) 自助分析

下秒数据机器人还提供了各种自助分析的工具,像文本自动分类、ABC分析、留存分析等,无需代码也能分析数据。\

881a671a40aaea9465385c3c039eb866.jpg

三、案例:探索分析葡萄酒质量

有了这个云ETL工具后,用Python来分析数据就方便很多,一方面大数据集可以快速上传和调用,另一方面直接从云上取数,不依赖终端设备,并且你的很多数据处理工作都可以在云上完成,Python取数后直接可以分析和建模。

下面用葡萄酒质量数据集来演示下如何使用下秒数据机器人来存储数据,并使用Python调用接口来进行数据分析。

葡萄酒数据是经典的kaggle比赛数据集,通过葡萄酒各种化学指标来评估葡萄酒的质量,非常具有分析价值。

e1747411a807a5315c1eae05b975bb70.jpg

a) 上传数据

直接将葡萄酒数据集csv文件上传到下秒数据机器人平台

2bb55364bebb56c29ad4444a86fefae5.jpg

上传完成保存后,便建立了一个数据流程任务,然后再构建数据视图,我们便可以使用Python API调用这个数据集。

7fc68235020b6504eb784e8b0fa19e00.jpg

b) 调用API数据

数据视图有API调用功能,提供了各种编程语言示例代码,我们复制Python示例代码到编辑器里,填好taken便可以调用数据了。

0cf11631a607d47ac2d6dbb13b0052b3.jpg

数据取出来是json格式,可以把数据读成pandas dataframe格式,方便查看分析。

import pandas as pd
import requests
# 导入数据,使用下秒机器人存储数据,通过API调用
headers = { "x-token": "tkb31a7c693c8341a8b47e9ce4e32184e9" }
response = requests.get("http://demo.chafer.nexadata.cn/openapi/v1/sheet/sht21JULR9CANs/records?size=500&page=1", headers = headers)
data = response.json()['data']['list']
data = pd.DataFrame(data).astype(float)
data

a1a1a57edf296ba3926564f461f34690.jpg

c) 数据探索可视化分析

接下来就是数据分析过程,使用Python pandas和matplotlib对葡萄酒数据集进行可视化分析。

数据分析的核心目标是评估葡萄酒的质量,评估哪些特征对葡萄酒的品质影响最大,以及葡萄酒不同特征之间有无相关性。

首先查看数据集的描述性统计,像平均值、方差等,观察数据的分布情况

# 查看数据集的描述统计
data.describe()[1:].T.style.background_gradient(cmap='Blues')

8cbf19bf6cb10f1c0e9069c1cd885e2f.jpg

其次各个特征之间的相关性关系,通过颜色深浅可以看出不同特征间的相关关系。

import matplotlib.pyplot as plt
# 查看相关系数
plt.figure(figsize=(20, 17))
matrix = np.triu(data.corr())
sns.heatmap(data.corr(), annot=True,
            linewidth=.8, mask=matrix, cmap="rocket")
plt.show()

62c5fe9a0ced065ec2a04d9b71caf46a.jpg

最后查看葡萄酒不同质量情况下,酸度等其他指标的平均值,来判定葡萄酒各指标对质量的影响。

# fixed acidity - quality两者关系
data[["fixed_acidity","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")

6c60403530742e34cfdad1a890b5334d.jpg

# fixed acidity - quality两者关系
data[["alcohol","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")

e6d865101f5f93dfb531684966b4ddaa.jpg

# fixed acidity - quality两者关系
data[["pH","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")

038e992bad086be963f0b53509652472.jpg

这里对葡萄酒质量数据做了简单的可视化探索,还有很多东西可以挖掘,比如口感较甜的葡萄酒是否质量更好?什么样酒精度的葡萄酒质量最好?什么样PH值的葡萄酒质量最好等等?

我把数据集和完整代码放在下秒数据机器人网站里,大家可以点击阅读原文去亲自试一试如何操作。

四、总结

对于经常使用Python做数据分析和建模的同学来说,像下秒数据机器人这样的云数据ETL有很多便捷之处,不用担心大数据读取慢,也不用担心换设备没数据可用,你可以专心做分析。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
Python
Python sorted() 函数和sort()函数对比分析
Python sorted() 函数和sort()函数对比分析
|
6天前
|
机器学习/深度学习 数据采集 数据可视化
跟着penguins案例学Seaborn之Pairplot
跟着penguins案例学Seaborn之Pairplot
13 1
|
6天前
|
Linux
跟着mpg案例学Seaborn之Jointplot
跟着mpg案例学Seaborn之Jointplot
16 1
|
6天前
|
数据可视化 Linux
跟着mpg案例学Seaborn之KDE
跟着mpg案例学Seaborn之KDE
12 1
|
6天前
|
数据挖掘
跟着mpg案例学Seaborn之Heatmap
跟着mpg案例学Seaborn之Heatmap
10 1
|
6天前
|
数据可视化
跟着exercise案例学Seaborn之FacetGrid
跟着exercise案例学Seaborn之FacetGrid
10 0
|
6天前
|
数据可视化 数据挖掘
跟着mpg案例学Seaborn之Scatter
跟着mpg案例学Seaborn之Scatter
14 0
|
6天前
跟着Tips案例学Seaborn之Catplot
跟着Tips案例学Seaborn之Catplot
|
6天前
|
算法 Linux
跟着Iris案例学Seaborn之Histplot
跟着Iris案例学Seaborn之Histplot
11 0
|
6天前
|
数据可视化 Python
跟着Titanic案例学Seaborn之Countplot
跟着Titanic案例学Seaborn之Countplot
16 0
下一篇
无影云桌面