NumPy 正态分布与 Seaborn 可视化指南

简介: 该文档介绍了正态分布(高斯分布),包括它的简介、特征、生成正态分布数据的方法(使用 NumPy 的 `random.normal()` 函数)、如何用 Seaborn 可视化正态分布,以及正态分布的应用(如统计学、机器学习、金融和工程)。还提供了一些练习,如生成特定参数的正态分布随机数并绘图,以及比较不同标准差下的分布形状。最后,给出了练习的解决方案,展示了如何执行这些任务。

正态分布(高斯分布)

简介

正态分布(也称为高斯分布)是一种非常重要的概率分布,它描述了许多自然和人为现象的数据分布情况。正态分布的形状呈钟形,其峰值位于平均值处,两侧对称下降。

特征

正态分布可以用两个参数来完全描述:

均值(μ):表示数据的平均值,分布的峰值位于 μ 处。

标准差(σ):表示数据的离散程度,数值越大,分布越平坦。

生成正态分布数据

NumPy 提供了 random.normal() 函数来生成服从正态分布的随机数。该函数接受以下参数:

loc:正态分布的均值,默认为 0。

scale:正态分布的标准差,默认为 1。

size:输出数组的形状。

示例:生成 100 个服从正态分布的随机数,均值为 5,标准差为 2:

import numpy as np
data = np.random.normal(loc=5, scale=2, size=100)
print(data)

可视化正态分布

Seaborn 库提供了便捷的函数来可视化分布,包括正态分布。

示例:绘制服从正态分布的数据的分布图:

import seaborn as sns
import numpy as np
data = np.random.normal(size=1000)
sns.distplot(data)
plt.show()

应用

正态分布在许多领域都有应用,例如:

统计学:用于推断总体参数,进行假设检验等。

机器学习:用于数据预处理,特征工程等。

金融:用于建模股票价格、汇率等金融数据。

工程:用于控制质量、可靠性分析等。

练习

  1. 生成 500 个服从正态分布的随机数,均值为 10,标准差为 3,并绘制它们的分布图。
  2. 比较不同标准差下正态分布形状的变化。
  3. 利用正态分布来模拟一次考试成绩,并计算平均分和标准分。

解决方案

import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
# 1. 生成服从正态分布的随机数并绘制分布图
data = np.random.normal(loc=10, scale=3, size=500)
sns.distplot(data)
plt.show()
# 2. 比较不同标准差下正态分布形状的变化
sns.distplot(np.random.normal(size=1000, scale=1), label="σ=1")
sns.distplot(np.random.normal(size=1000, scale=2), label="σ=2")
sns.distplot(np.random.normal(size=1000, scale=3), label="σ=3")
plt.legend()
plt.show()
# 3. 模拟考试成绩并计算平均分和标准分
scores = np.random.normal(loc=80, scale=10, size=100)
print("平均分:", scores.mean())
print("标准分:", (scores - scores.mean()) / scores.std())

解释:

在第一个练习中,我们生成了 500 个服从正态分布的随机数,均值为 10,标准差为 3,并使用 Seaborn 的 distplot() 函数绘制了它们的分布图。

在第二个练习中,我们生成了三个服从正态分布的数据集,分别设置标准差为 1、2 和 3,并使用 Seaborn 的 distplot() 函数绘制了它们的分布图。我们可以观察到,随着标准差的增加,分布变得更加平坦,两侧的尾巴更加明显。

在第三个练习中,我们模拟了一次考试成绩,假设成绩服从正态分布,均值为 80,标准差为 10。然后,我们计算了考试成绩的平均分和标准分。

相关文章
|
14天前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
28 1
|
2月前
|
机器学习/深度学习 数据可视化 Python
NumPy 均匀分布模拟及 Seaborn 可视化教程
本文介绍了均匀分布和逻辑分布。均匀分布是连续概率分布,所有事件在指定范围内有相等概率,常用于随机数生成。其概率密度函数为 1/(b-a),其中 a 和 b 分别是下限和上限。NumPy 的 `random.uniform()` 可生成均匀分布的随机数。逻辑分布,或 Logistic 分布,常用于 S 形增长现象的建模和机器学习,如逻辑回归。它有两个参数:位置参数 loc 和尺度参数 scale。其概率密度函数涉及 1 + (x-loc)/scale 的倒数平方。
|
1月前
|
BI 测试技术 索引
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)-1
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)
|
1月前
|
存储 API C语言
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)-2
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)
|
2月前
|
机器学习/深度学习 数据可视化 Python
NumPy 均匀分布模拟及 Seaborn 可视化教程
本文介绍了均匀分布和逻辑分布。均匀分布是连续概率分布,所有事件在指定范围内有相等概率发生,常用于随机数生成。其概率密度函数为 `f(x) = 1/(b-a)`,其中 a 和 b 分别为下限和上限。NumPy 的 `random.uniform()` 可生成均匀分布的随机数。Seaborn 可用于可视化分布。文中还提供了练习及解决方案,包括生成不同范围的均匀分布随机数、比较分布形状变化及模拟抛硬币实验。逻辑分布则常用于 S 形增长现象的建模,其 PDF 为 `(scale / (π (1 + (x - loc) / scale)^2))`,由位置参数 loc 和尺度参数 scale 定义。
35 0
|
2月前
|
程序员 开发工具 索引
图解Python numpy基本操作
图解Python numpy基本操作
|
6天前
|
SQL 并行计算 API
Dask是一个用于并行计算的Python库,它提供了类似于Pandas和NumPy的API,但能够在大型数据集上进行并行计算。
Dask是一个用于并行计算的Python库,它提供了类似于Pandas和NumPy的API,但能够在大型数据集上进行并行计算。
|
7天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
【7月更文挑战第12天】Python的Pandas和NumPy库助力高效数据处理。Pandas用于数据清洗,如填充缺失值和转换类型;NumPy则擅长数组运算,如元素级加法和矩阵乘法。结合两者,可做复杂数据分析和特征工程,如产品平均销售额计算及销售额标准化。Pandas的时间序列功能,如移动平均计算,进一步增强分析能力。掌握这两者高级技巧,能提升数据分析质量和效率。
21 4
|
14天前
|
数据采集 机器学习/深度学习 数据可视化
了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。
【7月更文挑战第5天】了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。数据预处理涉及缺失值(dropna(), fillna())和异常值处理。使用describe()进行统计分析,通过Matplotlib和Seaborn绘图。回归和分类分析用到Scikit-learn,如LinearRegression和RandomForestClassifier。
30 3
|
5天前
|
数据采集 数据挖掘 数据处理
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
【7月更文挑战第14天】Python的Pandas和NumPy库是数据分析的核心工具。Pandas以其高效的数据处理能力,如分组操作和自定义函数应用,简化了数据清洗和转换。NumPy则以其多维数组和广播机制实现快速数值计算。两者协同工作,如在DataFrame与NumPy数组间转换进行预处理,提升了数据分析的效率和精度。掌握这两者的高级功能是提升数据科学技能的关键。**
12 0