Pandas 数据分析模块|学习笔记

简介: 快速学习 Pandas 数据分析模块

开发者学堂课程【高校精品课-华东师范大学-人工智能基础: Pandas 数据分析模块】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/920/detail/15574


Pandas 数据分析模块

 

内容介绍:

一、Pandas 介绍

二、Series 介绍

 

一、Pandas 介绍

Pandas(Python Data Analysis Library)是 Python 的一个数据分析包,是基于 NumPy 的一种工具,为了解决数据分析任务而创建的。

Pandas 使用强大的数据结构提供高性能的数据操作和分析工具。模块提供了大量的能便捷处理数据的函数、方法和模型,还包括操作大型数据集的工具。从而能够高效分析数据。

Pandas 主要处理以下三种数据结构:

(1)Series::一维数组,与 NumPy 中一维的 ndarray 类似。数据结构接近 Python 中的 List 列表,数据元素可以是不同的数据类型。

2)DataFrame:二维数据结构。DataFrame 可以理解成 Series 的容器,其内部的每项元素都可以看作一个SeriesDataFrame 是重要的数据结构,在机器学习中经常使用。

3)Panel:三维数组,可以理解为 DataFrame 的容器,其内部的每项元素都可以看作一个 DataFrame。

这些数据结都是构建在 NumPy 数组的基础之上,运算速度很快


二、Series 介绍

Series 是一种类似于一维数组的对象,创建 Series 对象可以使用函数:pandas.Series(data,index)

data 表示数据值,index 是索引,一些情况下会自动创建一个0到 N-1的整数型索引,N是数据的长度。

例子:

In [1] :  import pandas as pd

s=pd.Series([1,3,5,6])

print(s) //要注意 Series 的索引默认是整数型。//

0    1

1    3

2    5

3    6

dtype: int64

Series 中的元素可以访问和修改如下:

In [ 3]:  s[1]=80

s

out[4]:  0    1

2    5

3    6

dtype: int64

创建 series 时还可以自定义索引如下

In [ ]:  s2=pd.Series([3.4,0.8,2.1,0.3,1.5],range[5,10])

s2

out[6]: 5       3.4

6       0.8

7         2.1

8         0.3

9         1.5

dtype:float64

In[]: s3=pd.Series({‘longitude’:39,’latitude’:116,’Temperature’:23})//创建了一个地理位置,索引是longitude 经度,latitude 纬度,温度 Temperature//

s3

out[8]:  

longitude        39

latitude           116

Temperature       23

dtype: int64

Series 中的数据可以修改,还可以增加新的索引,例如对 s3温度增加两度新增城市索引,其值为北京

In [ 9]:  s3[‘city’]=Beijing’

s3

out[9]:  longitude        39

latitude           116

Temperature       23

city              Beijing

dtype: object

In [ 10]: s3[‘Temperature’]+=2

s3

out[10]: longitude        39

latitude           116

Temperature       25

city              Beijing

dtype: object

如上温度增加了2度,新增了一个城市北京。

相关文章
|
6天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
98 71
|
5天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
101 73
|
2月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
85 0
|
2天前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
39 22
|
7天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
37 5
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
50 2
|
2月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
55 2
|
2月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
2月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
2月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南