python数据分析-pandas基础(1)

简介: pandas是处理结构化(表格数据)最常用的工具,是python数据分析和数据处理的最成熟的库。pandas最早是为了处理金融数据而开发的,开放到社区至今,已经广泛应用于各个领域中;pandas以numpy为基础,而pandas是其他应用的数据基础,如Scikit-learn等。

1. 什么是pandas?

pandas是处理结构化(表格数据)最常用的工具,是python数据分析和数据处理的最成熟的库。pandas最早是为了处理金融数据而开发的,开放到社区至今,已经广泛应用于各个领域中;pandas以numpy为基础,而pandas是其他应用的数据基础,如Scikit-learn等。

如果你想;

  • 快速地进行数据的统计分析
  • 像数据库一样做多数据之间的关联
  • 快速地预处理数据(删除脏数据,空数据,数据转换,缺失值处理)
  • 像Excel一样的做多维的数据透视,数据分组汇总统计
  • 绘制统计图表
  • 进行数据挖掘
  • and so on

你需要掌握pandas!

yyq-2022-11-16-22-48-31.png

pip install pandas
import pandas as pd
from pandas import Series, DataFrame

2. pandas数据结构

我们先来看看pandas的三大数据结构:Series、DataFrame和Index

2.1 Series

Series可以认为是一个一维数组, 但是和数组只有位置索引不同,Series可以有不同的索引。

import pandas as pd
import numpy as np
from pandas import Series, DataFrame
series = Series([12, 21, 31], index=['a', 'b', 'c'], dtype=np.int32, name="age")

# a    12
# b    21
# c    31
# Name: age, dtype: int32

从上可知,Series组成:

  • 数据项
  • 索引index, 默认为位置索引,即0到N-1
  • 数据类型dtype,不指定pandas会自动判断
  • 数据名称name

Series有哪些属性和操作

  • 获取属性:数据项values 和索引index 名称name

    # array([12, 21, 31])
    series.values
    
    # Index(['a', 'b', 'c'], dtype='object')
    series.index
    
    # age
    series.name
    
    # dtype('int32')
    series.dtype
  • 按照索引获取指定数据

    series[0], series['b']
    # 12 21
  • 查询数据和运算

    series[series > 20]
    # b    21
    # c    31
    # Name: age, dtype: int32
s2 = series * 2
# a    24
# b    42
# c    62
# Name: age, dtype: int32

s3 = np.log1p(series)

# a    2.564949
# b    3.091042
# c    3.465736
# Name: age, dtype: float64

```

总结下, Series是按索引组织有序有类型的一维数组。

2.2 DataFrame

DataFrame可以理解为一个或者多个Series组成的表格型的二维结构的数据。

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

frame.info()
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 6 entries, 0 to 5
# Data columns (total 3 columns):
# state    6 non-null object
# year     6 non-null int64
# pop      6 non-null float64
# dtypes: float64(1), int64(1), object(1)
# memory usage: 224.0+ bytes

yyq-2022-11-16-23-30-49.png

可以通过info()函数清楚的了解DataFrame组成:索引RangeIndex、数据列Data columns和数据类型。有属性来方便获取相应的值。

# RangeIndex(start=0, stop=6, step=1)
frame.index

# Index(['state', 'year', 'pop'], dtype='object')
frame.columns

DataFrame的每一行和每一列都是Series, 可以按行和按列访问数据

frame['state']

# 0      Ohio
# 1      Ohio
# 2      Ohio
# 3    Nevada
# 4    Nevada
# 5    Nevada
# Name: state, dtype: object

frame.loc[0]
# state    Ohio
# year     2000
# pop       1.5
# Name: 0, dtype: object

frame.loc[0][1]
# 2000

DataFrame是非常重要的结构,更多的操作我们在后续陆续分享。

2.3 Index

从Series和DataFrame中都可以看到Index的身影,可以说Series和DataFrame都是带索引的数据结构。

如果你对结构化数据库如Oracle、Mysql有了解化,索引是一个重要的高效访问的方式。对于Series和DataFrame来说同样也是。

Series和DataFrame的索引和数据库索引一样,是允许重复值的。

比如设置state列为索引

frame.set_index('state')
# year    pop
# state        
# Ohio    2000    1.5
# Ohio    2001    1.7
# Ohio    2002    3.6
# Nevada    2001    2.4
# Nevada    2002    2.9
# Nevada    2003    3.2

yyq-2022-11-16-23-47-22.png

今天我们分享了关于pandas的基础结构:Series、DataFrame和Index,希望对你有帮助。

目录
相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
133 71
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
【10月更文挑战第42天】本文是一篇技术性文章,旨在为初学者提供一份关于如何使用Python进行数据分析的入门指南。我们将从安装必要的工具开始,然后逐步介绍如何导入数据、处理数据、进行数据可视化以及建立预测模型。本文的目标是帮助读者理解数据分析的基本步骤和方法,并通过实际的代码示例来加深理解。
92 3
|
2月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
152 73
|
1月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
79 22
|
1月前
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
45 2
|
2月前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
90 5
|
3月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
189 4
数据分析的 10 个最佳 Python 库
|
3月前
|
存储 数据可视化 数据挖掘
使用Python进行数据分析和可视化
本文将引导你理解如何使用Python进行数据分析和可视化。我们将从基础的数据结构开始,逐步深入到数据处理和分析的方法,最后通过实际的代码示例来展示如何创建直观的数据可视化。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和技巧。让我们一起探索数据的世界,发现隐藏在数字背后的故事!
145 5
|
3月前
|
存储 数据可视化 数据挖掘
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析项目:抖音短视频达人粉丝增长趋势

热门文章

最新文章