为什么要学习pandas
pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了能够高效的操作大型数据集所需的工具和大量能够快速便捷的处理数据的函数和方法。numpy已经能够帮助处理数据,能够结合matplotlib解决数据分析,那么pandas学习的目的在什么地方呢?Numpy主要能够帮助处理数值型数据,但这还不够。很多时候,我们的数据除了数值之外,还有字符串,还有其它的类型。例如,每当通过爬虫获取到了存储在数据库中的数据,数据中除了数值之外还有姓名、地址等。所以,numpy能够帮助处理数值,但是pandas除了处理数值之外还能够帮助处理其他类型的数据。
Pandas的Series的创建
Pandas的常用数据类型,分为两种Series,一维:标签数组和DataFrame,二维:Series容器。今天主要讲解的是Series的创建。
首先 import pandas as pd 引入pandas库,然后通过pd.Series(list),就可以简单的创建一个Series。如下图
图1.1
当创建一个Series时,传入的列表变成了值,而它自动添加了index,就是标签。这就是Series的形式。那么我们可以改变index,变成想要的样子吗?答案当然是可以的。如下图
图1.2
为它增加一个index,就可以改变它的便签。但需要注意的是,传入的index也应该是一个列表,而且长度也应该与传入的值一致。除开用列表传入数值的方法,还可以通过字典的方式来传入。如下图
图1.3
通过观察可以发现字典的value没变,但key成了标签,这也是处理数据常用的形式。Series的切片与索引与numpy十分相似,也十分简单。切片,直接传入start end 步长。索引,一个的时候直接传入序号或index 多个的时候传入序号或者index的列表。
pandas读取数据
csv,tsv,txt |
用逗号分隔、tab分割的纯文本文件 |
pd.read_ csv |
excel |
微软xls或者xlsx文件 |
pd.read_ excel |
mysql |
关系型数据库表 |
pd.read_ sql |
结语
以上就是pandas的一些简单的应用,这些只是一些简单的皮毛。Pandas的功能十分强大,它还可以从剪贴板上读取数据。学好pandas,是掌握数据处理分析的重要工具。因为小编实力有限,只能做一些简单的介绍。