Python3数据分析——(2)Pandas快速入门基础

简介: Pandas基础Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。
Pandas基础

Pandas 的名称来自于 面板数据 (panel data)和 Python数据分析 (data analysis)。
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。
Pandas特点:
1.一个强大的分析和操作大型结构化数据集所需的工具集
2.基础是NumPy,提供了高性能矩阵的运算
3.提供了大量能够快速便捷地处理数据的函数和方法
4.应用于数据挖掘,数据分析
5.提供数据清洗功能
Pandas的数据结构:
import pandas as pd
Pandas有两个最主要也是最重要的数据结构: Series DataFrame
Pandas中使用频率较低的一种数据结构: Panel(Pandas 决定在未来的版本中将 Panel 移除,转而使用 MultiIndex DataFrame 来表示多维数据结构)
Pandas的对齐运算:
数据清洗 的重要过程,可以 按索引对齐进行运算 ,如果没对齐的位置则补 NaN ,最后也可以填充 NaN

一、Series数据结构(一维数据)
1、简要介绍:
(1) Series是一种类似于 一维数组 的对象,由 一组数据 (各种NumPy数据类型)以及一组与之对应的 索引 (数据标签)组成。
(2) 类似一维数组的对象,由 数据和索引 组成(索引(index)在左,数据(values)在右,索引是自动创建的)
(3) Series 是 Pandas 中最基本的一维数据形式。其可以储存 整数、浮点数、字符串 等形式的数据。Series 的新建方法如下: s = pandas.Series(data, index=index) ;其中,data 可以是字典、numpy 里的 ndarray 对象等。index 是数据索引,索引是 pandas 数据结构中的一大特性,它主要的功能是帮助我们更快速地定位数据。

2、通过字典(dict)构建Series


数据值是 10, 20, 30,索引为 a, b, c 。
我们也可以直接通过 index= 参数来设置新的索引,如下

pandas 会自动匹配人为设定的索引值和字典转换过来的索引值。而当索引无对应值时,会显示为 NaN 缺失值。
3、通过ndarray构建Series
ndarray 是著名数值计算包 numpy 中的多维数组。我们也可以将 ndarray 直接转换为 Series。
(1)指定了 index 的值

(2)非人为指定索引值时,Pandas 会默认从 0 开始设置索引值。

(3)从一维数据 Series 中返回某一个值时,可以直接通过索引完成

(4)对Series 直接进行运算

(5)Series的对齐运算

注意 :填充未对齐的数据进行运算
使用add, sub, div, mul的同时,通过fill_value指定填充值,未对齐的数据将和填充值做运算
示例代码:print(s1)
print(s2)
s1.add(s2, fill_value = -1)

二、DataFrame数据结构(二维数据)
1、简要介绍
(1) DataFrame 是一个 表格型的数据结构 ,它含有一组有序的列,每列可以是不同类型的值。DataFrame既有 行索引 也有 列索引 ,它可以被看做是由Series组成的字典(共用同一个索引),数据是以 二维结构 存放的。
(2) 特点 :类似多维数组/表格数据 (如,excel, R中的data.frame);每列数据可以是不同的类型;索引包括列索引和行索引
(3) DataFrame 可以用于储存多种类型的输入:
  • 一维数组、列表、字典或者 Series 字典。
  • 二维 numpy.ndarray。
  • 结构化的 ndarray。
  • 一个 Series。
  • 另一个 DataFrame。
2、通过字典(dict)构建DataFrame
(1)通过Series的字典构建DataFrame

行索引为 a, b, c, d ,而列索引为 one, two
(2)通过ndarray或list的字典构建DataFrame


3、通过带字典的列表构建DataFrame

4、DataFrame.from_ 方法
pandas的 DataFrame 下面还有 4 个以 from_ 开头的方法,这也可以用来创建 Dataframe。

5、DataFrame中列的选择、删除和添加
一维数据结构Series 中,我们用  df['标签'] 来选择行。在二维数据 DataFrame 中, df['标签'] 表示选择列。


6、DataFrame的对齐运算

三、Panel数据结构(三维数据)
1、简要介绍
(1) Panel是Pandas中使用频率较低的一种数据结构,但它是 三维数据 的重要容器。
(2) Panel data又称 面板数据 ,它是计量经济学中派生出来的一个概念。在计量经济学中,数据大致可分为三类: 截面数据 时间序列数据 面板数据 。而面板数据即是截面数据与时间序列数据综合起来的一种数据类型。
简单来讲, 截面数据 指在某一时间点收集的不同对象的数据。而 时间序列数据 是指同一对象在不同时间点所对应的数据集合。
这里引用一个城市和 GDP 关系的示例来解释上面的三个概念:
截面数据:
  • 例如城市:北京、上海、重庆、天津在某一年的 GDP 分别为10、11、9、8(单位亿元)。
时间序列数据:
  • 例如:2000、2001、2002、2003、2004 各年的北京市 GDP 分别为8、9、10、11、12(单位亿元)。
面板数据:
  • 2000、2001、2002、2003、2004 各年中国所有直辖市的 GDP 分别为(单位亿元):北京市分别为 8、9、10、11、12;上海市分别为 9、10、11、12、13;天津市分别为 5、6、7、8、9;重庆市分别为 7、8、9、10、11。
(3) Panel 构成
在 Pandas 中,Panel 主要由三个要素构成:
  • items: 每个项目(item)对应于内部包含的 DataFrame。
  • major_axis: 每个 DataFrame 的索引(行)。
  • minor_axis: 每个 DataFrame 的索引列。
简言之,在 Pandas 中,一个 Panel由多个 DataFrame 组成。
2、生成一个Panel

可以看到,wp 由 2 个项目、5个主要轴和4个次要轴组成。其中,主要轴由2000-01-01 到2000-01-05这5天组成的时间序列,次轴从A到D。

3、由于 Panel 在 Pandas 中的使用频率远低于 Series 和 DataFrame,所以 Pandas 决定在未来的版本中将 Panel 移除,转而使用 MultiIndex DataFrame 来表示多维数据结构。

补充 :Pandas统计计算和描述


#描述和汇总的方法
count 非Nan数量
describe 针对个列汇总统计
min和max 最大最小值
argmin、argmax 计算最大值或最小值对应的索引位置
quantile 计算样本的分位数(0-1)
mean 均值
median 中位数
mad 平均绝对离差
var 样本方差
std 样本的标准差
skew 样本值的偏度
kurt 样本值的峰度
cumsum 样本值的累计和



注:
Pandas官网: http://pandas.pydata.org/





相关文章
|
8月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
606 0
|
8月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
713 0
|
11月前
|
自然语言处理 数据挖掘 数据处理
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
本文将介绍 10 个在数据处理中至关重要的 Pandas 技术模式。这些模式能够显著减少调试时间,提升代码的可维护性,并构建更加清晰的数据处理流水线。
355 3
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
508 71
|
10月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
767 0
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
777 73
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
609 22
|
Python
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
246 3
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
929 5
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
527 2

推荐镜像

更多