python学习之pandas库的使用总结

简介: python学习之pandas库的使用总结

【1】读取CSV并进行透视

我们的原始数据格式:

① 读取数据

pd.read_csv 会读取csv表格并使用names指定读取后的列名称。

import pandas as pd
releaseNumOfYear = pd.read_csv("data/releaseNumOfYear.csv", header=None, names=['Year', 'Genre', 'ReleaseNum'])

这里会呈现什么格式呢?如下所示和我们Excel是一样的:

② 使用pivot进行透视

pivot函数用于从给定的表中创建出新的派生表,pivot有三个参数:索引、列和值

data = pd.pivot(releaseNumOfYear, index='Year', columns='Genre')

这里得到的data是什么呢?如下图所示:

也就是把①中读取的纵表透视为了横表(宽表),原先的Year这一列变成了新的基础列(索引列),而Genre这一列变成了行,也就是列转行。每个单元格的值呢,则是ReleaseNum。


如何去掉ReleaseNum呢?如下所示

data['ReleaseNum']


如上得到的data格式为pandas.core.frame.DataFrame,我们如何遍历呢?

【2】DataFrame的遍历

① 按行遍历

for index,row in releaseNumOfYear.iterrows():
        print(index,row)


这里index不用说了,就是每一行的索引。但是row,可不是你看到的一行数据而是如下图所示格式:

也就是 print(index,row)每次只需打印如下所示:

0 Year               2019
Genre         Unplugged
ReleaseNum           94
Name: 0, dtype: object


也可以根据列名获取数据不打印label,如下所示:

 for index,row in releaseNumOfYear.iterrows():
  print(row['Year'] , row['Genre'] , row['ReleaseNum'])
# 如第一行打印结果
2019 Unplugged 94

② shape 函数

pandas.DataFrame.shape 返回数据帧的形状。假设data为Dataframe格式数据有2行3列:

  • data.shape 返回data形状(2,3) 2行3列
  • data.shape[0] 返回行数 2
  • data.shape[1] 返回列数 3


【3】数据表的合并

① 格式一样数据表的合并

表格一:


表格二:

表格合并:

 filmCountryNum_Sort = pd.read_csv("movie/filmCountryNum_Sort.csv", header=None)
    filmCountryNum_Sort.columns = ["area", "Num"]
    filmCountry_ratingAverage_Sort = pd.read_csv("movie/filmCountry_ratingAverage_Sort.csv", header=None)
    filmCountry_ratingAverage_Sort.columns = ["area", "Average_Rating"]
    countryNum_avergeRating = pd.merge(filmCountryNum_Sort, filmCountry_ratingAverage_Sort, on='area')  # 合并两表


目录
相关文章
|
1天前
|
存储 算法 API
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
109 82
|
2天前
|
Python
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
16 3
|
2月前
|
Python 容器
Python学习的自我理解和想法(9)
这是我在B站跟随千锋教育学习Python的第9天,主要学习了赋值、浅拷贝和深拷贝的概念及其底层逻辑。由于开学时间紧张,内容较为简略,但希望能帮助理解这些重要概念。赋值是创建引用,浅拷贝创建新容器但元素仍引用原对象,深拷贝则创建完全独立的新对象。希望对大家有所帮助,欢迎讨论。
|
2月前
|
Python
Python学习的自我理解和想法(10)
这是我在千锋教育B站课程学习Python的第10天笔记,主要学习了函数的相关知识。内容包括函数的定义、组成、命名、参数分类(必须参数、关键字参数、默认参数、不定长参数)及调用注意事项。由于开学时间有限,记录较为简略,望谅解。通过学习,我理解了函数可以封装常用功能,简化代码并便于维护。若有不当之处,欢迎指正。
|
1月前
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
47 2
|
1月前
|
数据可视化 数据挖掘 大数据
1.1 学习Python操作Excel的必要性
学习Python操作Excel在当今数据驱动的商业环境中至关重要。Python能处理大规模数据集,突破Excel行数限制;提供丰富的库实现复杂数据分析和自动化任务,显著提高效率。掌握这项技能不仅能提升个人能力,还能为企业带来价值,减少人为错误,提高决策效率。推荐从基础语法、Excel操作库开始学习,逐步进阶到数据可视化和自动化报表系统。通过实际项目巩固知识,关注新技术,为职业发展奠定坚实基础。
|
2月前
|
存储 安全 索引
Python学习的自我理解和想法(8)
这是我在B站千锋教育学习Python的第8天,主要内容是元组。元组是一种不可变的序列数据类型,用于存储一组有序的元素。本文介绍了元组的基本操作,包括创建、访问、合并、切片、遍历等,并总结了元组的主要特点,如不可变性、有序性和可作为字典的键。由于开学时间紧张,内容较为简略,望见谅。
|
3月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
116 0
|
5月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
148 1
|
3月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
84 2

热门文章

最新文章