【Python】【Numpy+Pandas数据处理·闯关】和鲸社区学习笔记day(2)

简介: 【Python】【Numpy+Pandas数据处理·闯关】和鲸社区学习笔记day(2)

1.创建DataFrame


data = {"col1":['Python', 'C', 'Java', 'R', 'SQL', 'PHP', 'Python', 'Java', 'C', 'Python'],
       "col2":[6, 2, 6, 4, 2, 5, 8, 10, 3, 4], 
       "col3":[4, 2, 6, 2, 1, 2, 2, 3, 3, 6]}
df = pd.DataFrame(data)
df

col1
col2 col3
0 Python 6 4
1 C 2 2
2 Java 6 6
3 R 4 2
4 SQL 2 1
5 PHP 5 2
6 Python 8 2
7 Java 10 3
8 C 3 3
9 Python 4 6


2. 设置索引


df['new_index'] = range(1,11)
df.set_index('new_index')



col1
col2 col3
new_index
1 Python 6 4
2 C 2 2
3 Java 6 6
4 R 4 2
5 SQL 2 1
6 PHP 5 2
7 Python 8 2
8 Java 10 3
9 C 3 3
10 Python 4 6


3.更改列名


#方法二:(使用rename()函数:修改指定修改某列或某几列名字)
df.rename(columns={'col1':'grammer', 'col2':'score', 'col3':'cycle','new_index':'id'}, inplace=True)
df.head()

grammer
score cycle id
0 Python 6 4 1
1 C 2 2 2
2 Java 6 6 3
3 R 4 2 4
4 SQL 2 1 5


4.更改全部列顺序


order = df.columns[[0, 3, 1, 2]] # 或者order = ['xx', 'xx',...] 具体列名
df = df[order]
df



score
id grammer cycle
0 6 1 Python 4
1 2 2 C 2
2 6 3 Java 6
3 4 4 R 2
4 2 5 SQL 1
5 5 6 PHP 2
6 8 7 Python 2
7 10 8 Java 3
8 3 9 C 3
9 4 10 Python 6


5.提取第一列位置在1,10,15上的值


# 方法一:
df.iloc[[1,10,15], 0]
# 方法二:
df['createTime'][[1,10,15]]
# 方法三:
df['createTime'].take([1,10,15])

out:

1 2020-03-16 10:58:48

10 2020-03-16 10:34:19

15 2020-03-16 10:52:14

Name: createTime, dtype: datetime64[ns]


6.判断数据框中所有行是否存在重复


df.duplicated()

fdf5aeafa881aef5a1ba03d23c02cd5d_cb1b20f6bec94351b5b2fe17b1d50a85.png


7. 判断education列和salary列数据是否重复(多列组合查询)


df.duplicated(subset = ['education','salary'])

0e9f11b8474b77448c506e8e2cb38160_7ad6f864de7b415dbba3ebd4cef857b0.png


8.提取value列元素值大于60小于70的行


df[(df['value'] > 60) & (df['value'] < 70)]


9.提取salary列包含字符串(‘–’)的行


# 方法一:isin()
df[df['salary'].isin(['--'])]
# 方法二:contains()
df[df["salary"].str.contains("--")]


10.提取value列和value1列出现频率最高的数字


# 先将两列使用append()按行合并,再用计数函数:
temp = df['value'].append(df['value1'])
temp.value_counts(ascending=False)#不加index,返回的是一个Series
temp.value_counts(ascending=False).index[:5] #返回一个数组


作业


import pandas as pd
import numpy as np
import re
data = pd.read_excel(r'pandas120.xlsx')
df = pd.DataFrame(data)
# 提取学历为本科,工资在25k-35k的数据
df1 = df.loc[df['education'].isin(['本科']) & df['salary'].isin(['25k-35k']), :]
# 提取salary列中以'40k'结尾的数据
df2 = df[df['salary'].str.endswith('40k')]
# 提取薪资区间中最低薪资与最高薪资的平均值大于30k的行,只需提取原始字段('createTime', 'education', 'salary')即可
salary = df
tmp = salary['salary'].str.extract(r'(\d+).*?(\d+)') # 正则匹配,分割字符串
salary['avg'] = ((tmp[0].astype('int') + tmp[1].astype('int')) / 2) # 切记 相加记得加小括号
df3 = salary[salary['avg'] > 30]
df3 = df3.drop(columns=['avg'])
# 将以上三题提取出来的行按照相同列进行合并,汇总到一个数据框中
answer_2 = pd.concat([df1, df2, df3], axis=0)
# 将三列数据合并成一列,并设置列名为answer,最后保留id(数据行数、answer)
data = pd.concat([answer_2.iloc[:, 0], answer_2.iloc[:, 1], answer_2.iloc[:, 2]])
df = pd.DataFrame(data, columns=['answer'])
df['id'] = range(len(df))
df = df[['id', 'answer']]
# 将结果保存为 csv 文件
df.to_csv(r'answer_2.csv', index=False, encoding='utf-8-sig')


收获


inplace = True表示在原DataFrame上进行操作 · pf.columns[索引]返回的是一个Index列表,可以用来作为.iloc[]的参数


· Pandas的insert()函数允许用户在指定的位置插入行和列。下面是insert()函数的语法:

DataFrame.insert(loc, column, value, allow_duplicates=False)

参数说明:

• loc:表示要插入的数据的位置,以整数形式表示。

• column:要插入的列名(如果未指定值,则必须传递列名)

• value:要插入的值。可以是单个值或一组值。

• allow_duplicates:如果设为True时,允许在同一位置上重复列名。

ps:已经存在的列的列名不能重复添加


· DataFrame对象

take函数是一个用于返回指定的行的函数。

语法:DataFrame.take(indices, axis=0, convert=None):

参数:

• indices:行的索引值(int或者list of ints)。

• axis:可选参数,默认值为0。

• convert: 可选参数,默认值为None。是否将索引转换为相应的列标签。

返回:Ndarray或者其他可迭代对象中存储的行元素。


·df.[] 里面也能对type为Series,数据为bool进行df数据筛选


相关文章
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
75 0
|
1月前
|
数据处理 Python
在数据科学领域,Pandas和NumPy是每位数据科学家和分析师的必备工具
在数据科学领域,Pandas和NumPy是每位数据科学家和分析师的必备工具。本文通过问题解答形式,深入探讨Pandas与NumPy的高级操作技巧,如复杂数据筛选、分组聚合、数组优化及协同工作,结合实战演练,助你提升数据处理能力和工作效率。
44 5
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
44 2
|
2月前
|
网络协议 Java Linux
PyAV学习笔记(一):PyAV简介、安装、基础操作、python获取RTSP(海康)的各种时间戳(rtp、dts、pts)
本文介绍了PyAV库,它是FFmpeg的Python绑定,提供了底层库的全部功能和控制。文章详细讲解了PyAV的安装过程,包括在Windows、Linux和ARM平台上的安装步骤,以及安装中可能遇到的错误和解决方法。此外,还解释了时间戳的概念,包括RTP、NTP、PTS和DTS,并提供了Python代码示例,展示如何获取RTSP流中的各种时间戳。最后,文章还提供了一些附录,包括Python通过NTP同步获取时间的方法和使用PyAV访问网络视频流的技巧。
423 4
PyAV学习笔记(一):PyAV简介、安装、基础操作、python获取RTSP(海康)的各种时间戳(rtp、dts、pts)
|
1月前
|
存储 数据采集 数据处理
效率与精准并重:掌握Pandas与NumPy高级特性,赋能数据科学项目
在数据科学领域,Pandas和NumPy是Python生态中处理数据的核心库。Pandas以其强大的DataFrame和Series结构,提供灵活的数据操作能力,特别适合数据的标签化和结构化处理。NumPy则以其高效的ndarray结构,支持快速的数值计算和线性代数运算。掌握两者的高级特性,如Pandas的groupby()和pivot_table(),以及NumPy的广播和向量化运算,能够显著提升数据处理速度和分析精度,为项目成功奠定基础。
38 2
|
1月前
|
存储 数据处理 Python
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第27天】在科学计算和数据分析领域,Python凭借简洁的语法和强大的库支持广受欢迎。NumPy和SciPy作为Python科学计算的两大基石,提供了高效的数据处理和分析工具。NumPy的核心功能是N维数组对象(ndarray),支持高效的大型数据集操作;SciPy则在此基础上提供了线性代数、信号处理、优化和统计分析等多种科学计算工具。结合使用NumPy和SciPy,可以显著提升数据处理和分析的效率,使Python成为科学计算和数据分析的首选语言。
47 3
|
1月前
|
数据采集 数据可视化 数据处理
如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`)
本文介绍了如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`),加载历史数据,计算均线和其他技术指标,实现交易逻辑,记录和可视化交易结果。示例代码展示了如何根据均线交叉和价格条件进行开仓、止损和止盈操作。实际应用时需注意数据质量、交易成本和风险管理。
70 5
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
45 2
|
1月前
|
存储 机器学习/深度学习 算法
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第26天】NumPy和SciPy是Python科学计算领域的两大核心库。NumPy提供高效的多维数组对象和丰富的数学函数,而SciPy则在此基础上提供了更多高级的科学计算功能,如数值积分、优化和统计等。两者结合使Python在科学计算中具有极高的效率和广泛的应用。
65 2
|
2月前
|
关系型数据库 MySQL 数据库
Mysql学习笔记(四):Python与Mysql交互--实现增删改查
如何使用Python与MySQL数据库进行交互,实现增删改查等基本操作的教程。
73 1
下一篇
DataWorks