python学习之pandas库的使用总结

简介: python学习之pandas库的使用总结

【1】读取CSV并进行透视

我们的原始数据格式:

① 读取数据

pd.read_csv 会读取csv表格并使用names指定读取后的列名称。

import pandas as pd
releaseNumOfYear = pd.read_csv("data/releaseNumOfYear.csv", header=None, names=['Year', 'Genre', 'ReleaseNum'])

这里会呈现什么格式呢?如下所示和我们Excel是一样的:

② 使用pivot进行透视

pivot函数用于从给定的表中创建出新的派生表,pivot有三个参数:索引、列和值

data = pd.pivot(releaseNumOfYear, index='Year', columns='Genre')

这里得到的data是什么呢?如下图所示:

也就是把①中读取的纵表透视为了横表(宽表),原先的Year这一列变成了新的基础列(索引列),而Genre这一列变成了行,也就是列转行。每个单元格的值呢,则是ReleaseNum。


如何去掉ReleaseNum呢?如下所示

data['ReleaseNum']


如上得到的data格式为pandas.core.frame.DataFrame,我们如何遍历呢?

【2】DataFrame的遍历

① 按行遍历

for index,row in releaseNumOfYear.iterrows():
        print(index,row)


这里index不用说了,就是每一行的索引。但是row,可不是你看到的一行数据而是如下图所示格式:

也就是 print(index,row)每次只需打印如下所示:

0 Year               2019
Genre         Unplugged
ReleaseNum           94
Name: 0, dtype: object


也可以根据列名获取数据不打印label,如下所示:

 for index,row in releaseNumOfYear.iterrows():
  print(row['Year'] , row['Genre'] , row['ReleaseNum'])
# 如第一行打印结果
2019 Unplugged 94

② shape 函数

pandas.DataFrame.shape 返回数据帧的形状。假设data为Dataframe格式数据有2行3列:

  • data.shape 返回data形状(2,3) 2行3列
  • data.shape[0] 返回行数 2
  • data.shape[1] 返回列数 3


【3】数据表的合并

① 格式一样数据表的合并

表格一:


表格二:

表格合并:

 filmCountryNum_Sort = pd.read_csv("movie/filmCountryNum_Sort.csv", header=None)
    filmCountryNum_Sort.columns = ["area", "Num"]
    filmCountry_ratingAverage_Sort = pd.read_csv("movie/filmCountry_ratingAverage_Sort.csv", header=None)
    filmCountry_ratingAverage_Sort.columns = ["area", "Average_Rating"]
    countryNum_avergeRating = pd.merge(filmCountryNum_Sort, filmCountry_ratingAverage_Sort, on='area')  # 合并两表


目录
相关文章
|
12天前
|
调度 开发者 Python
Python中的异步编程:理解asyncio库
在Python的世界里,异步编程是一种高效处理I/O密集型任务的方法。本文将深入探讨Python的asyncio库,它是实现异步编程的核心。我们将从asyncio的基本概念出发,逐步解析事件循环、协程、任务和期货的概念,并通过实例展示如何使用asyncio来编写异步代码。不同于传统的同步编程,异步编程能够让程序在等待I/O操作完成时释放资源去处理其他任务,从而提高程序的整体效率和响应速度。
|
15天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
44 0
|
8天前
|
数据库 Python
异步编程不再难!Python asyncio库实战,让你的代码流畅如丝!
在编程中,随着应用复杂度的提升,对并发和异步处理的需求日益增长。Python的asyncio库通过async和await关键字,简化了异步编程,使其变得流畅高效。本文将通过实战示例,介绍异步编程的基本概念、如何使用asyncio编写异步代码以及处理多个异步任务的方法,帮助你掌握异步编程技巧,提高代码性能。
26 4
|
8天前
|
API 数据处理 Python
探秘Python并发新世界:asyncio库,让你的代码并发更优雅!
在Python编程中,随着网络应用和数据处理需求的增长,并发编程变得愈发重要。asyncio库作为Python 3.4及以上版本的标准库,以其简洁的API和强大的异步编程能力,成为提升性能和优化资源利用的关键工具。本文介绍了asyncio的基本概念、异步函数的定义与使用、并发控制和资源管理等核心功能,通过具体示例展示了如何高效地编写并发代码。
19 2
|
9天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
21 2
|
14天前
|
数据采集 JSON 测试技术
Python爬虫神器requests库的使用
在现代编程中,网络请求是必不可少的部分。本文详细介绍 Python 的 requests 库,一个功能强大且易用的 HTTP 请求库。内容涵盖安装、基本功能(如发送 GET 和 POST 请求、设置请求头、处理响应)、高级功能(如会话管理和文件上传)以及实际应用场景。通过本文,你将全面掌握 requests 库的使用方法。🚀🌟
36 7
|
14天前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
21 3
|
14天前
|
Python
通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法
在金融分析领域,"死叉"指的是短期移动平均线(如MA5)下穿长期移动平均线(如MA10),而"金叉"则相反。本文介绍了一种利用Python编程语言,通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法。该方法首先计算两种移动平均线,接着确定它们的交叉点,最后检查并输出最近一次死叉及其后是否形成了金叉。此技术广泛应用于股市趋势分析。
31 2
|
7天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
7天前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南

热门文章

最新文章