Pandas与SQL的数据操作语句对照

简介: Pandas与SQL的数据操作语句对照

640.png

介绍

SQL的神奇之处在于它容易学习,而它容易学习的原因是代码语法非常直观。

另一方面,Pandas不是那么直观,特别是如果像我一样首先从SQL开始。

就我个人而言,我发现真正有用的是思考如何在SQL中操作数据,然后在Pandas中复制它。所以如果你想更加精通Pandas,我强烈建议你也采用这种方法。

因此,本文可以作为一个备查表、字典、指南,无论你想怎么称呼它,这样你在使用Pandas时就可以参考它。

说了这么多,让我们开始吧!

内容

选择行

结合表

条件过滤

根据值进行排序

聚合函数

选择行

SELECT * FROM

如果你想要选择整个表,只需调用表的名称:

#SQLSELECT*FROMtable_df#Pandastable_dfSELECTa, bFROM

如果你想从一个表中选择特定的列,列出你想要的列在双括号中:

#SQLSELECTcolumn_a, column_bFROMtable_df#Pandastable_df[['column_a', 'column_b']]
SELECTDISTINCT

简单地使用.drop_duplicates()获取不同的值:

#SQLSELECTDISTINCTcolumn_aFROMtable_df#Pandastable_df['column_a'].drop_duplicates()
SELECTaasb

如果你想重命名一个列,使用.rename():

#SQLSELECTcolumn_aasApple, column_basBananaFROMtable_df#Pandastable_df[['column_a', 'column_b']].rename(columns={'column_a':
'Apple', 'column_b':'Banana'})
SELECTCASEWHEN

对于等价于SELECT CASE WHEN的情况,您可以使用np.select(),其中首先指定您的选择和每个选择的值。

#SQLSELECTCASEWHENcolumn_a>30THEN"Large"WHENcolumn_a<=30THEN"Small"ENDASSizeFROMtable_df#Pandasconditions= [table_df['column_a']>30, table_df['column_b']<=30]
choices= ['Large', 'Small']
table_df['Size'] =np.select(conditions, choices)

组合表

INNER/LEFT/RIGHT JOIN

只需使用.merge()连接表,就可以使用“how”参数指定它是左连接、右连接、内连接还是外连接。

#SQLSELECT*FROMtable_1t1LEFTJOINtable_2t1ont1.lkey=t2.rkey#Pandastable_1.merge(table_2, left_on='lkey', right_on='rkey', how='left')
UNIONALL使用pd.concat ():
#SQLSELECT*FROMtable_1UNIONALLSELECT*FROMtable_2#Pandasfinal_table=pd.concat([table_1, table_2])

条件过滤

SELECT WHERE

当你用SQL中WHERE子句的方式过滤数据流时,你只需要在方括号中定义标准:

#SQLSELECT*FROMtable_dfWHEREcolumn_a=1#Pandastable_df[table_df['column_a'] ==1]
SELECTcolumn_aWHEREcolumn_b

当你想从一个表中选择一个特定的列并用另一个列过滤它时,遵循以下格式:

#SQLSELECTcolumn_aFROMtable_dfWHEREcolumn_b=1#Pandastable_df[table_df['column_b']==1]['column_a']
SELECTWHEREAND

如果您希望通过多个条件进行筛选,只需将每个条件用圆括号括起来,并使用' & '分隔每个条件。

#SQLSELECT*FROMtable_dfWHEREcolumn_a=1ANDcolumn_b=2#Pandastable_df[(table_df['column_a']==1) & (table_df['column_b']==2)]
SELECTWHERELIKE

相当于SQL中的LIKE的是.str.contains()。如果您想应用大小写不敏感,只需在参数中添加

case=False。#SQLSELECT*FROMtable_dfWHEREcolumn_aLIKE'%ball%'#Pandastable_df[table_df['column_a'].str.contains('ball')]
SELECTWHEREcolumnIN()

SQL中的IN()等价于.isin()

#SQLSELECT*FROMtable_dfWHEREcolumn_aIN('Canada', 'USA')
#Pandastable_df[table_df['column_a'].isin(['Canada', 'USA'])]

根据值进行排序

ORDER BY 单列

SQL中的ORDER BY等价于.sort_values()。使用“ascending”参数指定是按升序排序还是按降序排序——默认情况下像SQL一样是升序排序。

#SQLSELECT*FROMtable_dfORDERBYcolumn_aDESC#Pandastable_df.sort_values('column_a', ascending=False)

ORDER BY 多列

如果您希望按多个列排序,请列出方括号中的列,并在方括号中的' ascending '参数中指定排序的方向。

#SQLSELECT*FROMtable_dfORDERBYcolumn_aDESC, column_bASC#Pandastable_df.sort_values(['column_a', 'column_b'], ascending=[False, True])

聚合函数

COUNT DISTINCT

请注意聚合函数的一种常见模式。

要使用DISTINCT计数,只需使用.groupby()和.nunique()。

#SQLSELECTcolumn_a, COUNTDISTINCT(ID) 
FROMtable_dfGROUPBYcolumn_a#Pandastable_df.groupby('column_a')['ID'].nunique()
sum#SQLSELECTcolumn_a, SUM(revenue) 
FROMtable_dfGROUPBYcolumn_a#Pandastable_df.groupby(['column_a', 'revenue']).sum()
avg#SQLSELECTcolumn_a, AVG(revenue) 
FROMtable_dfGROUPBYcolumn_a#Pandastable_df.groupby('column_a')['revenue'].mean()

总结

希望在使用Pandas处理数据时,本文可以作为有用的指南。不要觉得你必须记住所有这些!当我和Pandas一起工作时,我经常会回想到这一点。

如果能够通过足够的练习,你将对Pandas感到更舒适,并充分理解其潜在机制,而不需要依赖于像这样的备记单。

一如既往,祝你编码快乐!:)


目录
相关文章
|
1月前
|
Python
使用 Pandas 库时,如何处理数据的重复值?
在使用Pandas处理数据重复值时,需要根据具体的数据特点和分析需求,选择合适的方法来确保数据的准确性和唯一性。
133 8
|
4天前
|
存储 数据挖掘 数据处理
Pandas 数据筛选:条件过滤
Pandas 是 Python 最常用的数据分析库之一,提供了强大的数据结构和工具。本文从基础到高级,介绍如何使用 Pandas 进行条件过滤,包括单一条件、多个条件过滤、常见问题及解决方案,以及动态和复杂条件过滤的高级用法。希望本文能帮助你更好地利用 Pandas 处理数据。
109 78
|
6天前
|
数据挖掘 索引 Python
Pandas数据读取:CSV文件
Pandas 是 Python 中强大的数据分析库,`read_csv` 函数用于从 CSV 文件中读取数据。本文介绍 `read_csv` 的基本用法、常见问题及其解决方案,并通过代码案例详细说明。涵盖导入库、读取文件、指定列名和分隔符、处理文件路径错误、编码问题、大文件读取、数据类型问题、日期时间解析、空值处理、跳过行、指定索引列等。高级用法包括自定义列名映射、处理多行标题和注释行。希望本文能帮助你更高效地使用 Pandas 进行数据读取和处理。
44 13
|
2天前
|
算法 数据挖掘 索引
Pandas数据排序:单列与多列排序详解
本文介绍了Pandas库中单列和多列排序的方法及常见问题的解决方案。单列排序使用`sort_values()`方法,支持升序和降序排列,并解决了忽略大小写、处理缺失值和索引混乱等问题。多列排序同样使用`sort_values()`,可指定不同列的不同排序方向,解决列名错误和性能优化等问题。掌握这些技巧能提高数据分析效率。
23 9
|
1月前
|
Python
|
1月前
|
Python
|
1月前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
42 1
|
1月前
|
SQL 存储 缓存
SQL Server 数据太多如何优化
11种优化方案供你参考,优化 SQL Server 数据库性能得从多个方面着手,包括硬件配置、数据库结构、查询优化、索引管理、分区分表、并行处理等。通过合理的索引、查询优化、数据分区等技术,可以在数据量增大时保持较好的性能。同时,定期进行数据库维护和清理,保证数据库高效运行。
|
1月前
|
索引 Python
Pandas 常用函数-数据排序
10月更文挑战第28天
17 1
|
1月前
|
Python
Pandas 常用函数-查看数据
Pandas 常用函数-查看数据
21 2

热门文章

最新文章