NumPy 二项分布生成与 Seaborn 可视化技巧

简介: 二项分布是描述固定次数独立试验中成功次数的概率分布,常用于分析如抛硬币、选择题等二元结果事件。分布由试验次数 n、每次试验的成功概率 p 和成功次数 k 定义。公式为 P(k) = C(n, k) * p^k * (1 - p)^(n - k)。NumPy 的 `random.binomial()` 可生成二项分布随机数,Seaborn 可用于可视化分布。当 n 很大且 p 接近 0.5 时,二项分布近似正态分布。练习包括模拟不同条件下的成功次数分布、比较不同试验次数的影响以及应用二项分布在考试成绩和及格率计算上。

二项分布

简介

二项分布是一种离散概率分布,用于描述在固定次数的独立试验中,事件“成功”的次数的概率分布。它通常用于分析诸如抛硬币、做选择题等具有两个结果(成功或失败)的事件。

参数

二项分布用三个参数来定义:

n:试验次数,表示重复相同实验的次数。

p:每次试验中成功事件发生的概率。

k:成功事件发生的次数,范围为 0 到 n。

公式

二项分布的概率质量函数 (PMF) 给出了在 n 次试验中恰好获得 k 次成功的概率,计算公式为:

P(k) = C(n, k) p^k (1 - p)^(n - k)

其中:

C(n, k) 是组合数,表示从 n 个元素中选取 k 个元素的方案数。

p^k 表示 k 次成功的概率。

(1 - p)^(n - k) 表示 n - k 次失败的概率。

生成二项分布数据

NumPy 提供了 random.binomial() 函数来生成服从二项分布的随机数。该函数接受以下参数:

n:试验次数。

p:每次试验中成功事件发生的概率。

size:输出数组的形状。

示例:生成 10 次试验中,每次成功概率为 0.5 的事件的成功次数:

import numpy as np
data = np.random.binomial(n=10, p=0.5, size=10)
print(data)

可视化二项分布

Seaborn 库提供了便捷的函数来可视化分布,包括二项分布。

示例:绘制 100 次试验中,每次成功概率为 0.6 的事件的成功次数分布:

import seaborn as sns
import numpy as np
data = np.random.binomial(n=100, p=0.6, size=1000)
sns.distplot(data)
plt.show()

正态分布与二项分布的关系

当试验次数 n 很大,成功概率 p 接近 0.5 时,二项分布可以近似为正态分布。其均值 μ 为 np,标准差 σ 为 sqrt(np(1 - p))。

示例:比较二项分布和正态分布的形状:

import seaborn as sns
import numpy as np
n = 100
p = 0.5
# 生成二项分布数据
data_binomial = np.random.binomial(n=n, p=p, size=1000)
# 生成正态分布数据
mu = n p
sigma = np.sqrt(n p (1 - p))
data_normal = np.random.normal(loc=mu, scale=sigma, size=1000)
sns.distplot(data_binomial, label="Binomial")
sns.distplot(data_normal, label="Normal")
plt.legend()
plt.show()

练习

  1. 在 50 次试验中,每次成功概率为 0.2 的事件,模拟成功次数并绘制分布图。
  2. 比较不同试验次数下二项分布形状的变化。
  3. 利用二项分布来模拟一次 10 道选择题的考试,每题答对的概率为 0.7,并计算平均分和及格率(60 分及格)。

解决方案

import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
# 1. 模拟成功次数并绘制分布图
data = np.random.binomial(n=50, p=0.2, size=1000)
sns.distplot(data)
plt.show()
# 2. 比较不同试验次数下二项分布形状的变化
n_values = [10, 50, 100, 500]
for n in n_values:
    data = np.random.binomial(n=n, p=0.5, size=1000)
    sns.distplot(data, label=f"n={n}")
plt.legend()
plt.show()
# 3. 模拟考试成绩并计算平均分和及格率
scores
相关文章
|
14天前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
28 1
|
2月前
|
机器学习/深度学习 数据可视化 Python
NumPy 均匀分布模拟及 Seaborn 可视化教程
本文介绍了均匀分布和逻辑分布。均匀分布是连续概率分布,所有事件在指定范围内有相等概率,常用于随机数生成。其概率密度函数为 1/(b-a),其中 a 和 b 分别是下限和上限。NumPy 的 `random.uniform()` 可生成均匀分布的随机数。逻辑分布,或 Logistic 分布,常用于 S 形增长现象的建模和机器学习,如逻辑回归。它有两个参数:位置参数 loc 和尺度参数 scale。其概率密度函数涉及 1 + (x-loc)/scale 的倒数平方。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
NumPy 正态分布与 Seaborn 可视化指南
该文档介绍了正态分布(高斯分布),包括它的简介、特征、生成正态分布数据的方法(使用 NumPy 的 `random.normal()` 函数)、如何用 Seaborn 可视化正态分布,以及正态分布的应用(如统计学、机器学习、金融和工程)。还提供了一些练习,如生成特定参数的正态分布随机数并绘图,以及比较不同标准差下的分布形状。最后,给出了练习的解决方案,展示了如何执行这些任务。
|
2月前
|
数据可视化 Python
NumPy 泊松分布模拟与 Seaborn 可视化技巧
泊松分布是描述单位时间间隔内随机事件发生次数的离散概率分布,参数λ表示平均速率。公式为 P(k) = e^(-λ) (λ^k) / k!。NumPy 的 `random.poisson()` 可生成泊松分布数据。当 λ 很大时,泊松分布近似正态分布。练习包括模拟顾客到达、比较不同 λ 下的分布及模拟电话呼叫中心。使用 Seaborn 可进行可视化。关注公众号 `Let us Coding` 获取更多文章。
44 1
|
2月前
|
机器学习/深度学习 数据可视化 Python
NumPy 均匀分布模拟及 Seaborn 可视化教程
本文介绍了均匀分布和逻辑分布。均匀分布是连续概率分布,所有事件在指定范围内有相等概率发生,常用于随机数生成。其概率密度函数为 `f(x) = 1/(b-a)`,其中 a 和 b 分别为下限和上限。NumPy 的 `random.uniform()` 可生成均匀分布的随机数。Seaborn 可用于可视化分布。文中还提供了练习及解决方案,包括生成不同范围的均匀分布随机数、比较分布形状变化及模拟抛硬币实验。逻辑分布则常用于 S 形增长现象的建模,其 PDF 为 `(scale / (π (1 + (x - loc) / scale)^2))`,由位置参数 loc 和尺度参数 scale 定义。
35 0
|
2月前
|
程序员 开发工具 索引
图解Python numpy基本操作
图解Python numpy基本操作
|
1月前
|
BI 测试技术 索引
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)-1
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)
|
6天前
|
SQL 并行计算 API
Dask是一个用于并行计算的Python库,它提供了类似于Pandas和NumPy的API,但能够在大型数据集上进行并行计算。
Dask是一个用于并行计算的Python库,它提供了类似于Pandas和NumPy的API,但能够在大型数据集上进行并行计算。
|
7天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
【7月更文挑战第12天】Python的Pandas和NumPy库助力高效数据处理。Pandas用于数据清洗,如填充缺失值和转换类型;NumPy则擅长数组运算,如元素级加法和矩阵乘法。结合两者,可做复杂数据分析和特征工程,如产品平均销售额计算及销售额标准化。Pandas的时间序列功能,如移动平均计算,进一步增强分析能力。掌握这两者高级技巧,能提升数据分析质量和效率。
21 4
|
14天前
|
数据采集 机器学习/深度学习 数据可视化
了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。
【7月更文挑战第5天】了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。数据预处理涉及缺失值(dropna(), fillna())和异常值处理。使用describe()进行统计分析,通过Matplotlib和Seaborn绘图。回归和分类分析用到Scikit-learn,如LinearRegression和RandomForestClassifier。
30 3