开发者学堂课程【高校精品课-华东师范大学-人工智能基础: Pandas 数据分析模块】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/920/detail/15574
Pandas 数据分析模块
内容介绍:
一、Pandas 介绍
二、Series 介绍
一、Pandas 介绍
Pandas(Python Data Analysis Library)是 Python 的一个数据分析包,是基于 NumPy 的一种工具,为了解决数据分析任务而创建的。
Pandas 使用强大的数据结构提供高性能的数据操作和分析工具。模块提供了大量的能便捷处理数据的函数、方法和模型,还包括操作大型数据集的工具。从而能够高效分析数据。
Pandas 主要处理以下三种数据结构:
(1)Series::一维数组,与 NumPy 中一维的 ndarray 类似。数据结构接近 Python 中的 List 列表,数据元素可以是不同的数据类型。
(2)DataFrame:二维数据结构。DataFrame 可以理解成 Series 的容器,其内部的每项元素都可以看作一个Series。DataFrame 是重要的数据结构,在机器学习中经常使用。
(3)Panel:三维数组,可以理解为 DataFrame 的容器,其内部的每项元素都可以看作一个 DataFrame。
这些数据结都是构建在 NumPy 数组的基础之上,运算速度很快
二、Series 介绍
Series 是一种类似于一维数组的对象,创建 Series 对象可以使用函数:pandas.Series(data,index)
data 表示数据值,index 是索引,一些情况下会自动创建一个0到 N-1的整数型索引,N是数据的长度。
例子:
I
n [1] : import pandas as pd
s=pd.Series([1,3,5,6])
print(s) //
要注意 S
eries
的索引默认是整数型。/
/
0 1
1 3
2 5
3 6
dtype: int64
S
eries
中的元素可以访问和修改如下:
I
n [ 3]: s[1]=80
s
o
ut[4]: 0 1
2 5
3 6
dtype: int64
创建 series 时还可以自定义索引如下
I
n [ ]: s2=pd.Series([3.4,0.8,2.1,0.3,1.5],range[5,10])
s
2
o
ut[6]: 5 3.4
6 0.8
7 2.1
8 0.3
9 1.5
dtype:float64
I
n[]: s3=pd.Series({‘longitude’:39,’latitude’:116,’Temperature’:23})//
创建了一个地理位置,索引是
longitude
经度,
latitude
纬度,温度
Temperature//
s3
o
ut[8]:
longitude 39
latitude 116
Temperature 23
dtype: int64
Series 中的数据可以修改,还可以增加新的索引,例如对 s3温度增加两度新增城市索引,其值为北京
I
n [ 9]: s3[‘city’]=Beijing’
s3
o
ut[9]: longitude 39
latitude 116
Temperature 23
city Beijing
dtype: object
I
n [ 10]: s3[‘Temperature’]+=2
s3
o
ut[10]: longitude 39
latitude 116
Temperature 25
city Beijing
dtype: object
如上温度增加了2度,新增了一个城市北京。