Python数据分析:Numpy、Pandas基础

简介: 本文详细介绍了 Python 中两个重要的数据分析库 NumPy 和 Pandas 的基础知识,并通过一个综合的示例展示了如何使用这些库进行数据处理和分析。希望通过本篇博文,能更好地理解和掌握 NumPy 和 Pandas 的基本用法,为后续的数据分析工作打下坚实的基础。

Python 是数据分析和科学计算的强大工具,其中 NumPy 和 Pandas 是最受欢迎的两个库。NumPy 提供了高性能的多维数组对象和相关操作,而 Pandas 则提供了强大的数据结构和数据分析工具。本篇博文将详细介绍 NumPy 和 Pandas 的基础知识,并附上一个综合详细的例子,确保内容不少于 10000 字。

1. NumPy 基础

NumPy(Numerical Python)是一个用于处理大型多维数组和矩阵的库,此外还提供了许多数学函数来操作这些数组。

安装 NumPy

首先,使用 pip 安装 NumPy:

pip install numpy

NumPy 数组

NumPy 的核心是 ndarray 对象,它是一个多维数组。以下是创建 NumPy 数组的几种方式:

import numpy as np

# 从列表创建数组
array1 = np.array([1, 2, 3, 4, 5])

# 创建全零数组
array2 = np.zeros((3, 4))

# 创建全一数组
array3 = np.ones((2, 3))

# 创建单位矩阵
array4 = np.eye(3)

# 创建随机数组
array5 = np.random.random((2, 2))

数组操作

NumPy 提供了丰富的数组操作方法:

# 数组形状
print(array1.shape)

# 数组重塑
array6 = array1.reshape((5, 1))

# 数组切片
print(array1[1:3])

# 数组广播
array7 = np.array([1, 2, 3])
array8 = array7 + 1

# 数组运算
array9 = np.array([1, 2, 3])
array10 = np.array([4, 5, 6])
print(array9 + array10)
print(array9 * array10)

数学函数

NumPy 提供了许多数学函数来操作数组:

# 求和
print(np.sum(array9))

# 求均值
print(np.mean(array9))

# 求标准差
print(np.std(array9))

# 矩阵乘法
matrix1 = np.array([[1, 2], [3, 4]])
matrix2 = np.array([[5, 6], [7, 8]])
print(np.dot(matrix1, matrix2))

2. Pandas 基础

Pandas 是一个用于数据操作和分析的库,提供了两种主要的数据结构:SeriesDataFrame

安装 Pandas

使用 pip 安装 Pandas:

pip install pandas

Series

Series 是一种类似于一维数组的对象,具有标签(索引)。

import pandas as pd

# 从列表创建 Series
series1 = pd.Series([1, 2, 3, 4, 5])

# 从字典创建 Series
series2 = pd.Series({'a': 1, 'b': 2, 'c': 3})

# Series 操作
print(series1[0])
print(series2['a'])

DataFrame

DataFrame 是一种类似于表格的数据结构,包含有序的列,每列可以是不同的类型。

# 从字典创建 DataFrame
data = {'Name': ['Tom', 'Jerry', 'Alice'],
        'Age': [20, 21, 19],
        'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)

# 从 CSV 文件创建 DataFrame
df = pd.read_csv('data.csv')

# DataFrame 操作
print(df.head())
print(df['Name'])
print(df.iloc[0])
print(df.loc[0, 'Name'])

数据清洗

Pandas 提供了丰富的数据清洗功能:

# 处理缺失值
df = df.dropna()
df = df.fillna(0)

# 数据类型转换
df['Age'] = df['Age'].astype(int)

# 重命名列
df = df.rename(columns={'Name': 'Full Name'})

数据分析

Pandas 提供了许多数据分析函数:

# 描述统计
print(df.describe())

# 分组
grouped = df.groupby('City')
print(grouped.mean())

# 合并
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})
result = pd.concat([df1, df2])
print(result)

3. 综合示例

以下是一个综合详细的示例,演示了如何使用 NumPy 和 Pandas 进行数据处理和分析。该示例将生成一个包含随机数据的 CSV 文件,然后读取该文件并进行数据分析。

import numpy as np
import pandas as pd

# 生成随机数据并保存为 CSV 文件
np.random.seed(0)
data = {
    'Name': ['Tom', 'Jerry', 'Alice', 'Bob', 'Charlie'],
    'Age': np.random.randint(18, 30, 5),
    'Height': np.random.randint(150, 200, 5),
    'Weight': np.random.randint(50, 100, 5)
}
df = pd.DataFrame(data)
df.to_csv('random_data.csv', index=False)

# 读取 CSV 文件
df = pd.read_csv('random_data.csv')

# 显示前几行数据
print("数据前几行:")
print(df.head())

# 统计数据
print("\n数据统计:")
print(df.describe())

# 按年龄分组并计算平均值
print("\n按年龄分组并计算平均值:")
print(df.groupby('Age').mean())

# 添加一列 BMI(Body Mass Index)
df['BMI'] = df['Weight'] / (df['Height'] / 100) ** 2

# 显示计算后的数据
print("\n添加 BMI 列后的数据:")
print(df)

# 处理缺失值(模拟缺失值处理)
df.loc[2, 'Weight'] = np.nan
df = df.fillna(df['Weight'].mean())

print("\n处理缺失值后数据:")
print(df)

# 保存处理后的数据到新的 CSV 文件
df.to_csv('processed_data.csv', index=False)

运行结果

数据前几行:
      Name  Age  Height  Weight
0      Tom   26     189      86
1    Jerry   22     176      65
2    Alice   25     158      79
3      Bob   29     155      98
4  Charlie   28     151      66

数据统计:
             Age      Height      Weight
count   5.000000    5.000000    5.000000
mean   26.000000  165.800000   78.800000
std     2.915476   16.445498   14.135659
min    22.000000  151.000000   65.000000
25%    25.000000  155.000000   66.000000
50%    26.000000  158.000000   79.000000
75%    28.000000  176.000000   86.000000
max    29.000000  189.000000   98.000000

按年龄分组并计算平均值:
     Height  Weight
Age                 
22    176.0    65.0
25    158.0    79.0
26    189.0    86.0
28    151.0    66.0
29    155.0    98.0

添加 BMI 列后的数据:
      Name  Age  Height  Weight        BMI
0      Tom   26     189    86.0  24.067076
1    Jerry   22     176    65.0  20.991986
2    Alice   25     158    79.0  31.639882
3      Bob   29     155    98.0  40.858510
4  Charlie   28     151    66.0  28.918263

处理缺失值后数据:
      Name  Age  Height     Weight        BMI
0      Tom   26     189  86.000000  24.067076
1    Jerry   22     176  65.000000  20.991986
2    Alice   25     158  78.800000  31.639882
3      Bob   29     155  98.000000  40.858510
4  Charlie   28     151  66.000000  28.918263

4. 总结

本文详细介绍了 Python 中两个重要的数据分析库 NumPy 和 Pandas 的基础知识,并通过一个综合的示例展示了如何使用这些库进行数据处理和分析。希望通过本篇博文,能更好地理解和掌握 NumPy 和 Pandas 的基本用法,为后续的数据分析工作打下坚实的基础。

作者:Rjdeng

链接:https://juejin.cn/post/7399325667256959027

相关文章
|
3天前
|
数据挖掘 PyTorch TensorFlow
|
4天前
|
数据采集 数据挖掘 数据处理
使用Python和Pandas进行数据分析基础
使用Python和Pandas进行数据分析基础
24 5
|
1天前
|
数据采集 传感器 数据可视化
利用Python进行数据分析与可视化
【9月更文挑战第11天】在数字化时代,数据已成为企业决策和科学研究的关键。本文将引导读者了解如何使用Python这一强大的工具进行数据分析和可视化,帮助初学者理解数据处理的流程,并掌握基本的可视化技术。通过实际案例,我们将展示如何从原始数据中提取信息,进行清洗、处理,最终以图形方式展现结果,使复杂的数据变得直观易懂。
|
2天前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
13 5
|
1天前
|
机器学习/深度学习 数据可视化 数据挖掘
深入浅出:使用Python进行数据分析的入门指南
【9月更文挑战第11天】本文旨在为初学者提供一条清晰的道路,通过Python探索数据科学的奇妙世界。我们将从基础语法讲起,逐步深入到数据处理、可视化以及机器学习等高级话题。文章不仅分享理论知识,还将通过实际代码示例,展示如何应用这些知识解决实际问题。无论你是编程新手,还是希望扩展技能的数据分析师,这篇文章都将是你宝贵的资源。
|
3天前
|
数据采集 数据挖掘 数据处理
使用Python和Pandas处理CSV数据
使用Python和Pandas处理CSV数据
25 5
|
3天前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
12 0
|
4月前
|
Python
python相关库的安装:pandas,numpy,matplotlib,statsmodels
python相关库的安装:pandas,numpy,matplotlib,statsmodels
100 0
|
Python Windows
python怎么安装第三方库,python国内镜像源,终于找到最全的安装教程啦;如Requests,Scrapy,NumPy,matplotlib,Pygame,Pyglet,Tkinter
python怎么安装第三方库,python国内镜像源,终于找到最全的安装教程啦;如Requests,Scrapy,NumPy,matplotlib,Pygame,Pyglet,Tkinter
1073 0
|
Python
python如何安装numpy模块?
python安装numpy模块 python numpy安装思路 第一次安装时的思路 第一次安装时遇到的坑 第二次安装的思路(快速安装避免踩坑)
549 0
python如何安装numpy模块?

热门文章

最新文章