Pandas 数据分析模块|学习笔记

简介: 快速学习 Pandas 数据分析模块

开发者学堂课程【高校精品课-华东师范大学-人工智能基础: Pandas 数据分析模块】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/920/detail/15574


Pandas 数据分析模块

 

内容介绍:

一、Pandas 介绍

二、Series 介绍

 

一、Pandas 介绍

Pandas(Python Data Analysis Library)是 Python 的一个数据分析包,是基于 NumPy 的一种工具,为了解决数据分析任务而创建的。

Pandas 使用强大的数据结构提供高性能的数据操作和分析工具。模块提供了大量的能便捷处理数据的函数、方法和模型,还包括操作大型数据集的工具。从而能够高效分析数据。

Pandas 主要处理以下三种数据结构:

(1)Series::一维数组,与 NumPy 中一维的 ndarray 类似。数据结构接近 Python 中的 List 列表,数据元素可以是不同的数据类型。

2)DataFrame:二维数据结构。DataFrame 可以理解成 Series 的容器,其内部的每项元素都可以看作一个SeriesDataFrame 是重要的数据结构,在机器学习中经常使用。

3)Panel:三维数组,可以理解为 DataFrame 的容器,其内部的每项元素都可以看作一个 DataFrame。

这些数据结都是构建在 NumPy 数组的基础之上,运算速度很快


二、Series 介绍

Series 是一种类似于一维数组的对象,创建 Series 对象可以使用函数:pandas.Series(data,index)

data 表示数据值,index 是索引,一些情况下会自动创建一个0到 N-1的整数型索引,N是数据的长度。

例子:

In [1] :  import pandas as pd

s=pd.Series([1,3,5,6])

print(s) //要注意 Series 的索引默认是整数型。//

0    1

1    3

2    5

3    6

dtype: int64

Series 中的元素可以访问和修改如下:

In [ 3]:  s[1]=80

s

out[4]:  0    1

2    5

3    6

dtype: int64

创建 series 时还可以自定义索引如下

In [ ]:  s2=pd.Series([3.4,0.8,2.1,0.3,1.5],range[5,10])

s2

out[6]: 5       3.4

6       0.8

7         2.1

8         0.3

9         1.5

dtype:float64

In[]: s3=pd.Series({‘longitude’:39,’latitude’:116,’Temperature’:23})//创建了一个地理位置,索引是longitude 经度,latitude 纬度,温度 Temperature//

s3

out[8]:  

longitude        39

latitude           116

Temperature       23

dtype: int64

Series 中的数据可以修改,还可以增加新的索引,例如对 s3温度增加两度新增城市索引,其值为北京

In [ 9]:  s3[‘city’]=Beijing’

s3

out[9]:  longitude        39

latitude           116

Temperature       23

city              Beijing

dtype: object

In [ 10]: s3[‘Temperature’]+=2

s3

out[10]: longitude        39

latitude           116

Temperature       25

city              Beijing

dtype: object

如上温度增加了2度,新增了一个城市北京。

相关文章
|
3天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
92 71
|
2天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
95 73
|
2月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
80 0
|
4天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
31 5
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
50 2
|
2月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
53 2
|
2月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
2月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
2月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
3月前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
70 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用