这个云ETL工具配合Python轻松实现大数据集分析,附案例

简介: 这个云ETL工具配合Python轻松实现大数据集分析,附案例

一、Python处理大数据集的痛点

Python是数据分析最好的工具之一,像pandas、numpy、matplotlib等都是Python生态的数据分析利器,但处理大数据集是Python的一大痛点,特别是你在本地电脑进行IO操作时非常慢,像pandas读取上G的文件就得几分钟。

我之前参加过一个交通类的数据科学比赛,主办方让参赛者从官网下载几十G的原始CSV文件,这些数据存在电脑里,然后通过Python来读取、清洗、可视化、建模,每一步都很慢,当时用了多线程、分块读取等各种方法才勉强完成比赛。

当然市面上很多工具可以提升数据处理的效率,比如Pyspark、Modin、Polars等,确实提升不少,但依旧受限于电脑的内存和性能限制。

二、使用下秒数据机器人实现大数据集ETL

既然本地电脑不行,那就只能上云,我的需求是云工具必须要能快速存取数据,且支持SQL查询和Python调用,这样既能在云上完成SQL数据清洗,还能通过Python调用API实现数据抽取。

最近刚好发现了这样一个工具-下秒数据机器人,不光支持大数据集快速上传、SQL查询、Python API调用,还能实现AI数据问答、自助分析等功能,非常方便。 aa9434cc408298a6d6756d94099c9f2b.jpg

a) 数据集导入

下秒数据机器人支持CSV、Excel、XML、Json及各种数据库等数据导入 d1a3534859f2ec721311cfc363cda640.jpg

下秒数据机器人网站链接:

http://nexadata.cn/mobileSetMessage

如果对数据导入有问题,可以联系下秒的技术支持

b) SQL数据查询

数据导入过程中可以使用SQL进行数据清洗,也可以查询已经导入的数据集 cd115ece636cab101b910dc55b060fb7.jpg

c) Python API调用

几行代码就可以实现Python API数据读取,还支持Java、Javascript、PHP语言调用,再也不用纠结本地电脑内存了。 c446352a305c69a9887a8d5817abae63.jpg

d) AI数据问答

通过文本提问形式,实现数据的分析和提取

cda3ef111f4a761292cc829c582b6824.jpg

e) 自助分析

下秒数据机器人还提供了各种自助分析的工具,像文本自动分类、ABC分析、留存分析等,无需代码也能分析数据。\

881a671a40aaea9465385c3c039eb866.jpg

三、案例:探索分析葡萄酒质量

有了这个云ETL工具后,用Python来分析数据就方便很多,一方面大数据集可以快速上传和调用,另一方面直接从云上取数,不依赖终端设备,并且你的很多数据处理工作都可以在云上完成,Python取数后直接可以分析和建模。

下面用葡萄酒质量数据集来演示下如何使用下秒数据机器人来存储数据,并使用Python调用接口来进行数据分析。

葡萄酒数据是经典的kaggle比赛数据集,通过葡萄酒各种化学指标来评估葡萄酒的质量,非常具有分析价值。

e1747411a807a5315c1eae05b975bb70.jpg

a) 上传数据

直接将葡萄酒数据集csv文件上传到下秒数据机器人平台

2bb55364bebb56c29ad4444a86fefae5.jpg

上传完成保存后,便建立了一个数据流程任务,然后再构建数据视图,我们便可以使用Python API调用这个数据集。

7fc68235020b6504eb784e8b0fa19e00.jpg

b) 调用API数据

数据视图有API调用功能,提供了各种编程语言示例代码,我们复制Python示例代码到编辑器里,填好taken便可以调用数据了。

0cf11631a607d47ac2d6dbb13b0052b3.jpg

数据取出来是json格式,可以把数据读成pandas dataframe格式,方便查看分析。

import pandas as pd
import requests
# 导入数据,使用下秒机器人存储数据,通过API调用
headers = { "x-token": "tkb31a7c693c8341a8b47e9ce4e32184e9" }
response = requests.get("http://demo.chafer.nexadata.cn/openapi/v1/sheet/sht21JULR9CANs/records?size=500&page=1", headers = headers)
data = response.json()['data']['list']
data = pd.DataFrame(data).astype(float)
data

a1a1a57edf296ba3926564f461f34690.jpg

c) 数据探索可视化分析

接下来就是数据分析过程,使用Python pandas和matplotlib对葡萄酒数据集进行可视化分析。

数据分析的核心目标是评估葡萄酒的质量,评估哪些特征对葡萄酒的品质影响最大,以及葡萄酒不同特征之间有无相关性。

首先查看数据集的描述性统计,像平均值、方差等,观察数据的分布情况

# 查看数据集的描述统计
data.describe()[1:].T.style.background_gradient(cmap='Blues')

8cbf19bf6cb10f1c0e9069c1cd885e2f.jpg

其次各个特征之间的相关性关系,通过颜色深浅可以看出不同特征间的相关关系。

import matplotlib.pyplot as plt
# 查看相关系数
plt.figure(figsize=(20, 17))
matrix = np.triu(data.corr())
sns.heatmap(data.corr(), annot=True,
            linewidth=.8, mask=matrix, cmap="rocket")
plt.show()

62c5fe9a0ced065ec2a04d9b71caf46a.jpg

最后查看葡萄酒不同质量情况下,酸度等其他指标的平均值,来判定葡萄酒各指标对质量的影响。

# fixed acidity - quality两者关系
data[["fixed_acidity","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")

6c60403530742e34cfdad1a890b5334d.jpg

# fixed acidity - quality两者关系
data[["alcohol","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")

e6d865101f5f93dfb531684966b4ddaa.jpg

# fixed acidity - quality两者关系
data[["pH","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")

038e992bad086be963f0b53509652472.jpg

这里对葡萄酒质量数据做了简单的可视化探索,还有很多东西可以挖掘,比如口感较甜的葡萄酒是否质量更好?什么样酒精度的葡萄酒质量最好?什么样PH值的葡萄酒质量最好等等?

我把数据集和完整代码放在下秒数据机器人网站里,大家可以点击阅读原文去亲自试一试如何操作。

四、总结

对于经常使用Python做数据分析和建模的同学来说,像下秒数据机器人这样的云数据ETL有很多便捷之处,不用担心大数据读取慢,也不用担心换设备没数据可用,你可以专心做分析。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
317 14
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
214 4
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
186 0
|
5月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
341 3
|
3月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
160 14
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。

推荐镜像

更多