Pandas与SQL的数据操作语句对照

简介: Pandas与SQL的数据操作语句对照

640.png

介绍

SQL的神奇之处在于它容易学习,而它容易学习的原因是代码语法非常直观。

另一方面,Pandas不是那么直观,特别是如果像我一样首先从SQL开始。

就我个人而言,我发现真正有用的是思考如何在SQL中操作数据,然后在Pandas中复制它。所以如果你想更加精通Pandas,我强烈建议你也采用这种方法。

因此,本文可以作为一个备查表、字典、指南,无论你想怎么称呼它,这样你在使用Pandas时就可以参考它。

说了这么多,让我们开始吧!

内容

选择行

结合表

条件过滤

根据值进行排序

聚合函数

选择行

SELECT * FROM

如果你想要选择整个表,只需调用表的名称:

#SQLSELECT*FROMtable_df#Pandastable_dfSELECTa, bFROM

如果你想从一个表中选择特定的列,列出你想要的列在双括号中:

#SQLSELECTcolumn_a, column_bFROMtable_df#Pandastable_df[['column_a', 'column_b']]
SELECTDISTINCT

简单地使用.drop_duplicates()获取不同的值:

#SQLSELECTDISTINCTcolumn_aFROMtable_df#Pandastable_df['column_a'].drop_duplicates()
SELECTaasb

如果你想重命名一个列,使用.rename():

#SQLSELECTcolumn_aasApple, column_basBananaFROMtable_df#Pandastable_df[['column_a', 'column_b']].rename(columns={'column_a':
'Apple', 'column_b':'Banana'})
SELECTCASEWHEN

对于等价于SELECT CASE WHEN的情况,您可以使用np.select(),其中首先指定您的选择和每个选择的值。

#SQLSELECTCASEWHENcolumn_a>30THEN"Large"WHENcolumn_a<=30THEN"Small"ENDASSizeFROMtable_df#Pandasconditions= [table_df['column_a']>30, table_df['column_b']<=30]
choices= ['Large', 'Small']
table_df['Size'] =np.select(conditions, choices)

组合表

INNER/LEFT/RIGHT JOIN

只需使用.merge()连接表,就可以使用“how”参数指定它是左连接、右连接、内连接还是外连接。

#SQLSELECT*FROMtable_1t1LEFTJOINtable_2t1ont1.lkey=t2.rkey#Pandastable_1.merge(table_2, left_on='lkey', right_on='rkey', how='left')
UNIONALL使用pd.concat ():
#SQLSELECT*FROMtable_1UNIONALLSELECT*FROMtable_2#Pandasfinal_table=pd.concat([table_1, table_2])

条件过滤

SELECT WHERE

当你用SQL中WHERE子句的方式过滤数据流时,你只需要在方括号中定义标准:

#SQLSELECT*FROMtable_dfWHEREcolumn_a=1#Pandastable_df[table_df['column_a'] ==1]
SELECTcolumn_aWHEREcolumn_b

当你想从一个表中选择一个特定的列并用另一个列过滤它时,遵循以下格式:

#SQLSELECTcolumn_aFROMtable_dfWHEREcolumn_b=1#Pandastable_df[table_df['column_b']==1]['column_a']
SELECTWHEREAND

如果您希望通过多个条件进行筛选,只需将每个条件用圆括号括起来,并使用' & '分隔每个条件。

#SQLSELECT*FROMtable_dfWHEREcolumn_a=1ANDcolumn_b=2#Pandastable_df[(table_df['column_a']==1) & (table_df['column_b']==2)]
SELECTWHERELIKE

相当于SQL中的LIKE的是.str.contains()。如果您想应用大小写不敏感,只需在参数中添加

case=False。#SQLSELECT*FROMtable_dfWHEREcolumn_aLIKE'%ball%'#Pandastable_df[table_df['column_a'].str.contains('ball')]
SELECTWHEREcolumnIN()

SQL中的IN()等价于.isin()

#SQLSELECT*FROMtable_dfWHEREcolumn_aIN('Canada', 'USA')
#Pandastable_df[table_df['column_a'].isin(['Canada', 'USA'])]

根据值进行排序

ORDER BY 单列

SQL中的ORDER BY等价于.sort_values()。使用“ascending”参数指定是按升序排序还是按降序排序——默认情况下像SQL一样是升序排序。

#SQLSELECT*FROMtable_dfORDERBYcolumn_aDESC#Pandastable_df.sort_values('column_a', ascending=False)

ORDER BY 多列

如果您希望按多个列排序,请列出方括号中的列,并在方括号中的' ascending '参数中指定排序的方向。

#SQLSELECT*FROMtable_dfORDERBYcolumn_aDESC, column_bASC#Pandastable_df.sort_values(['column_a', 'column_b'], ascending=[False, True])

聚合函数

COUNT DISTINCT

请注意聚合函数的一种常见模式。

要使用DISTINCT计数,只需使用.groupby()和.nunique()。

#SQLSELECTcolumn_a, COUNTDISTINCT(ID) 
FROMtable_dfGROUPBYcolumn_a#Pandastable_df.groupby('column_a')['ID'].nunique()
sum#SQLSELECTcolumn_a, SUM(revenue) 
FROMtable_dfGROUPBYcolumn_a#Pandastable_df.groupby(['column_a', 'revenue']).sum()
avg#SQLSELECTcolumn_a, AVG(revenue) 
FROMtable_dfGROUPBYcolumn_a#Pandastable_df.groupby('column_a')['revenue'].mean()

总结

希望在使用Pandas处理数据时,本文可以作为有用的指南。不要觉得你必须记住所有这些!当我和Pandas一起工作时,我经常会回想到这一点。

如果能够通过足够的练习,你将对Pandas感到更舒适,并充分理解其潜在机制,而不需要依赖于像这样的备记单。

一如既往,祝你编码快乐!:)


目录
相关文章
|
8月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
简介:本文整理自阿里云高级技术专家李麟在Flink Forward Asia 2025新加坡站的分享,介绍了Flink 2.1 SQL在实时数据处理与AI融合方面的关键进展,包括AI函数集成、Join优化及未来发展方向,助力构建高效实时AI管道。
1100 43
|
6月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
653 0
|
8月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
510 0
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
|
9月前
|
SQL
SQL如何只让特定列中只显示一行数据
SQL如何只让特定列中只显示一行数据
|
11月前
|
数据采集 安全 数据挖掘
Pandas数据合并:10种高效连接技巧与常见问题
在数据分析中,数据合并是常见且关键的步骤。本文针对合并来自多个来源的数据集时可能遇到的问题,如列丢失、重复记录等,提供系统解决方案。基于对超1000个复杂数据集的分析经验,总结了10种关键技术,涵盖Pandas库中`merge`和`join`函数的使用方法。内容包括基本合并、左连接、右连接、外连接、基于索引连接、多键合并、数据拼接、交叉连接、后缀管理和合并验证等场景。通过实际案例与技术原理解析,帮助用户高效准确地完成数据整合任务,提升数据分析效率。
1000 13
Pandas数据合并:10种高效连接技巧与常见问题
|
SQL 自然语言处理 数据库
【Azure Developer】分享两段Python代码处理表格(CSV格式)数据 : 根据每列的内容生成SQL语句
本文介绍了使用Python Pandas处理数据收集任务中格式不统一的问题。针对两种情况:服务名对应多人拥有状态(1/0表示),以及服务名与人名重复列的情况,分别采用双层for循环和字典数据结构实现数据转换,最终生成Name对应的Services列表(逗号分隔)。此方法高效解决大量数据的人工处理难题,减少错误并提升效率。文中附带代码示例及执行结果截图,便于理解和实践。
323 5
|
监控 物联网 数据处理
Pandas高级数据处理:数据流式计算
本文介绍了如何使用 Pandas 进行流式数据处理。流式计算能够实时处理不断流入的数据,适用于金融交易、物联网监控等场景。Pandas 虽然主要用于批处理,但通过分块读取文件、增量更新 DataFrame 和使用生成器等方式,也能实现简单的流式计算。文章还详细讨论了内存溢出、数据类型不一致、数据丢失或重复及性能瓶颈等常见问题的解决方案,并建议在处理大规模数据时使用专门的流式计算框架。
752 100
Pandas高级数据处理:数据流式计算
|
9月前
|
SQL
SQL中如何删除指定查询出来的数据
SQL中如何删除指定查询出来的数据
|
9月前
|
SQL 关系型数据库 MySQL
SQL如何对不同表的数据进行更新
本文介绍了如何将表A的Col1数据更新到表B的Col1中,分别提供了Microsoft SQL和MySQL的实现方法,并探讨了多表合并后更新的优化方式,如使用MERGE语句提升效率。适用于数据库数据同步与批量更新场景。
|
11月前
|
SQL 数据挖掘 关系型数据库
【SQL 周周练】一千条数据需要做一天,怎么用 SQL 处理电表数据(如何动态构造自然月)
题目来自于某位发帖人在某 Excel 论坛的求助,他需要将电表缴费数据按照缴费区间拆开后再按月份汇总。当时用手工处理数据,自称一千条数据就需要处理一天。我将这个问题转化为 SQL 题目。
415 12