对比MySQL,学会在Pandas中实现SQL的常用操作(一)

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 对比MySQL,学会在Pandas中实现SQL的常用操作(一)

本文大纲

image.png


导入相关库和数据读取

import numpy as np
import pandas as pd
df = pd.read_csv("tips.csv",encoding="gbk")
df.head()


结果如下:image.png



1.Select数据查询

在SQL中,选择是使用您要选择的列(用逗号分隔)或(*选择所有列)来完成的。


SELECT '总费用', '小费', '是否吸烟', '吃饭时间'
FROM df
LIMIT 5;


对于pandas,通过将列名列表传递给DataFrame来完成列选择。


df[['总费用', '小费', '是否吸烟', '吃饭时间']].head(5)


结果如下:

image.png

注意:调用不带列名列表的DataFrame将显示所有列(类似于SQL的 *)。


在SQL中,您可以添加一个计算列:


SELECT *, "小费"/"总费用" as "小费占比"
FROM df
LIMIT 5;


对于pandas,可以使用DataFrame.assign()的方法追加新列。


df.assign(小费占比=df['小费'] / df['总费用']).head(5)


结果如下:

image.png


2.Where按条件查询

通过WHERE子句在SQL中进行过滤。


SELECT *
FROM df
WHERE 吃饭时间 = '晚餐'
LIMIT 5;


DataFrame可以通过多种方式进行过滤。最直观的方法是使用布尔索引。


df[df['吃饭时间'] == '晚餐'].head(5)


结果如下:

image.png

上面的语句只是将Series的True / False对象传递给DataFrame,并返回所有带有True的行。


is_dinner = df['吃饭时间'] == '晚餐'
is_dinner.value_counts()
df[is_dinner].head(5)


结果如下:

image.png

就像SQL的OR和AND一样,可以使用|将多个条件传递给DataFrame。|(OR)和&(AND)。


SELECT *
FROM df
WHERE 吃饭时间 = '晚餐' AND 小费 > 5.00;


那么,在DataFrame代码应该怎么写呢?


df[(df['吃饭时间'] == '晚餐') & (df['小费'] > 5.00)]


结果如下:

image.png

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
23天前
|
SQL 关系型数据库 MySQL
mysql一条sql查询出多个统计结果
mysql一条sql查询出多个统计结果
14 0
|
2天前
|
SQL 关系型数据库 MySQL
:“You have an error in your SQL syntax; check the manual that corresponds to your MySQL server versi
:“You have an error in your SQL syntax; check the manual that corresponds to your MySQL server versi
8 0
|
10天前
|
SQL 关系型数据库 数据库
【后端面经】【数据库与MySQL】SQL优化:如何发现SQL中的问题?
【4月更文挑战第12天】数据库优化涉及硬件升级、操作系统调整、服务器/引擎优化和SQL优化。SQL优化目标是减少磁盘IO和内存/CPU消耗。`EXPLAIN`命令用于检查SQL执行计划,关注`type`、`possible_keys`、`key`、`rows`和`filtered`字段。设计索引时考虑外键、频繁出现在`where`、`order by`和关联查询中的列,以及区分度高的列。大数据表改结构需谨慎,可能需要停机、低峰期变更或新建表。面试中应准备SQL优化案例,如覆盖索引、优化`order by`、`count`和索引提示。优化分页查询时避免大偏移量,可利用上一批的最大ID进行限制。
36 3
|
16天前
|
SQL 存储 关系型数据库
【MySQL实战笔记】02.一条SQL更新语句是如何执行的-2
【4月更文挑战第5天】两阶段提交是为确保`redo log`和`binlog`逻辑一致,避免数据不一致。若先写`redo log`, crash后数据可能丢失,导致恢复后状态错误;若先写`binlog`,crash则可能导致重复事务,影响数据库一致性。一天一备相较于一周一备,能缩短“最长恢复时间”,但需权衡额外的存储成本。
16 1
|
23天前
|
SQL 关系型数据库 MySQL
【MySQL】慢SQL分析流程
【4月更文挑战第1天】【MySQL】慢SQL分析流程
|
27天前
|
SQL 关系型数据库 MySQL
【MySQL技术之旅】(7)总结和盘点优化方案系列之常用SQL的优化
【MySQL技术之旅】(7)总结和盘点优化方案系列之常用SQL的优化
40 1
|
28天前
|
SQL 关系型数据库 MySQL
MySQL SQL语句面试准备
MySQL SQL语句面试准备
12 0
|
1月前
|
SQL 关系型数据库 MySQL
[MySQL]SQL优化之sql语句优化
[MySQL]SQL优化之sql语句优化
|
1月前
|
SQL 关系型数据库 MySQL
[MySQL]SQL优化之索引的使用规则
[MySQL]SQL优化之索引的使用规则
|
13天前
|
SQL 人工智能 算法
【SQL server】玩转SQL server数据库:第二章 关系数据库
【SQL server】玩转SQL server数据库:第二章 关系数据库
52 10