pandas (2)

简介: pandas 数据类型赋值#Series赋值s = pd.Series([3,-5,7,4],index = ['a','b','c','d'])#DataFrame 赋值data = {'Country':['belgium','India','Brazil'], 'C...

pandas 数据类型

赋值

#Series赋值
s = pd.Series([3,-5,7,4],index = ['a','b','c','d'])
#DataFrame 赋值
data = {'Country':['belgium','India','Brazil'],
        'Capital':['Brussels','New Delhi','Brasilia'],
        'Population':[11190846,1303171035,207847528]}
df = pd.DataFrame(data,cloumns=['Country','Capital','Population'])

数据选择

#选择一个项
s['b']
#    -5
#选择多个
df[1:]

#选择第n行,如果已经定义了clonms,还可以直接跟 =['xx','xx']赋值新行

df.loc[n]

选择、布尔下标

By Position 坐标选择:

df.iloc([0],[0])
#    `Belgium`
df.iat([0],[0])
#    `Belgium`

By Label 标签选择:

df.loc([0],['country'])
df.at([0],['country'])

By Label/Position :

de.ix[2]
#     Country     Brazil
#    Capital        rasilia
#    Population    207847528
df.ix[:,'Capital']
#    0    Brussels
#    1    Delhi
#    2    Brasilia
df.ix[1,'Capital']
#    'New Delhi'

使用ix方法被提示如下:ix is deprecated
pic1

Boolean Indexing 布尔下标(筛选)

s[-(s>1)]
s[(s<-1)|(s>2)]
df[df['Population']>1200000000]

Dropping

s.drop(['a','c'])
df.drop('Country',axis=1)

Sort&Rank 排序

df.sort_index()
df.sort_values(by='Country')
df.rank()
## Retrieving Series/DataFrame Information
### Basic Information
```python
df.shape    # (rows,columns)
df.index    # Describe index
df.cloumns    # Describe DataFrame cloumns
df.info()    # Info on DataFrame
df.count()    # Number of non-NA values 默认输出每列的项数

Summary 概要

df.sum()            #sum of values
df.cumsum()            #cummulative sum of values 从上到下的累加,输出一个新的dataframe
df.min()/df.max()    #Minimum/maximum values
df.idxmin()/df.idxmax()    #Minimum/maximum index values
df.describe()        #Summary statistics 所有特征计算汇总统计
df.mean()            #Mean of values 平均值(所有int64数据的)
df.median()            #Median of values 中间值

Applying Functions 应用函数

f = lambda x : x*2
df.apply(f)
df.applymap(f)

df.apply()函数只输出 df*2,不改变df的值。此例中博主没发现df.applymap()df.apply()的区别。

Data Alignment 数据对齐

Internal Data Alignment 内部数据对齐

pandas DataFrame学习

I/O 文件读写

csv文件

pd.read_csv()
pd.to_csv()

Excel文件

pd.read_excel('path')
pd.to_excel('path',sheet_name='name')
#读取单个文件下不同sheets
xlsx = pd.ExcelFile('path')
df = pd.read_excel(xlsx,'sheetname')

SQL Query or Database Table

from sqlalchemy import create_engine
engine = create_engine('sqlite:///:memory:')
pd.read_sql("SELECT * FROM my_table;",engine)
pd.read_sql_table('my_table',engine)
pd.read_sql_query("SELECT * FROM my_table;",engine)
#生成sql
pd.to_sql('myDf',engine)

参考

目录
相关文章
|
Web App开发 移动开发 JavaScript
彻底学会快速部署vue框架,一篇就够了
Vue框架诞生于2014年,其作者为中国人——尤雨溪,也是新人最容易入手的框架之一,不同于React和Angular,其中文文档也便于大家阅读和学习。Vue用于构建交互式的Web界面的库,是一个用于构建用户界面的渐进式框架。
1722 0
彻底学会快速部署vue框架,一篇就够了
|
关系型数据库 MySQL Linux
|
存储 安全 网络安全
Windows Server 本地安全策略
由于广泛使用及历史上存在的漏洞,Windows服务器成为黑客和恶意行为者的主要攻击目标。这些系统通常存储敏感数据并支持关键服务,因此组织需优先缓解风险,保障业务的完整性和连续性。常见的威胁包括勒索软件、拒绝服务攻击、内部威胁、恶意软件感染等。本地安全策略是Windows操作系统中用于管理计算机本地安全性设置的工具,主要包括用户账户策略、安全选项、安全设置等。实施强大的安全措施,如定期补丁更新、网络分段、入侵检测系统、数据加密等,对于加固Windows服务器至关重要。
402 1
|
机器学习/深度学习 编解码 算法
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 10 日论文合集)
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 10 日论文合集)
后端登录接口使用postman,无法接收返回数据,怎样解决,认真比较与原项目的代码,看看有没有写的不一样的,问题就能解决,不要多少写,根据postman的提示先找到错误的进程,看错误进程出现在那个进程
后端登录接口使用postman,无法接收返回数据,怎样解决,认真比较与原项目的代码,看看有没有写的不一样的,问题就能解决,不要多少写,根据postman的提示先找到错误的进程,看错误进程出现在那个进程
|
Java 应用服务中间件
tomcat启动startup.bat一闪而过解决方案
tomcat启动startup.bat一闪而过解决方案
440 0
|
监控 前端开发 关系型数据库
zabbix部署【各模块详细介绍】(一)
zabbix部署【各模块详细介绍】
496 0
|
程序员 数据库
Cause: com.microsoft.sqlserver.jdbc.SQLServerException: 操作数类型冲突: varbinary 与 text 不兼容
Cause: com.microsoft.sqlserver.jdbc.SQLServerException: 操作数类型冲突: varbinary 与 text 不兼容
1426 0
|
数据采集 并行计算 PyTorch
【目标检测之数据集加载】利用DataLoader加载已预处理后的数据集【附代码】
在前一篇文章中,已经通过继承Dataset预处理自己的数据集 ,接下来就是使用pytorch提供的DataLoader函数加载数据集。
870 0
【目标检测之数据集加载】利用DataLoader加载已预处理后的数据集【附代码】
Ubuntu中如何查看mp4视频
ubuntu中都是命令行显示,我们要看mp4的话需要安装一些相应的插件,下面我做一个简要的介绍
Ubuntu中如何查看mp4视频