Python:利用蒙特卡洛方法模拟验证概率分布

简介: 这个题目可以使用数学方法,将其答案显式地写出来,但是验证解出来的答案是否正确,就可以使用蒙特卡洛方法了。

利用 MonteCarlo 模拟验证概率分布

有这样一道题目:

已知两个独立随机变量 $x,y$,随机变量 $x$ 服从几何分布 $\mathrm{Geom}(p)$,$y$ 服从区间 $[0,1]$ 上的均匀分布 $\mathrm{U}(0,1)$,求新的随机变量 $z=xy$ 的概率分布。

这个题目可以使用数学方法,将其答案显式地写出来,但是验证解出来的答案是否正确,就可以使用蒙特卡洛方法了。我们可以先写出自己的答案,然后编程看看使用蒙特卡洛方法模拟出来的结果与我们自己计算出来的结果是否一致。

1/ 使用数学方法解题

第一步我们先用高数的知识解题,这一步如果看不懂,可以跳过,直接看第二步的编程模拟部分,我会把结果写出来,重要的是学会蒙特卡洛方法的思路,而不是学会如何解这道题。

首先,由题设知:

$$ F_Y(y)=\begin{cases}0, & y<0 \\y, & 0 <1 \\1, & y>1 \end{cases} \\ P(x=k)=(1-p)^{k-1}p $$

故:

$$ \begin{aligned} F_Z(z) & = P\{Z\le z\}=P\{XY\le z\} \\ & = P\{Y\le z \}\cdot P\{X=1 \}+P\{2Y\le z \}\cdot P\{X=2 \}+P\{3Y\le z \}\cdot P\{X=3 \}+\cdots+P\{kY\le z \}\cdot P\{X=k \} \\ & = P\{Y\le z \}\cdot p+P\{Y\le \frac{z}{2} \}\cdot (1-p)p+\cdots+P\{Y\le \frac{z}{k} \}\cdot (1-p)^{k-1}p \end{aligned} $$

当 $z<0$ 时,$F_Z(z)=0$

当 $0<z\le 1$ 时,$F_Z(z)=zp+\frac{1}{2}z(1-p)p+\frac{1}{3}z(1-p)^2p+\cdots+\frac{1}{k}z(1-p)^{k-1}p$

当 $1<z\le 2$ 时,$F_Z(z)=p+\frac{1}{2}z(1-p)p+\frac{1}{3}z(1-p)^2p+\cdots+\frac{1}{k}z(1-p)^{k-1}p$

$\vdots$

综上所述:

$$ F_Z(z)=\begin{cases} 0, & z<0 \\ zp+\frac{1}{2}z(1-p)p+\frac{1}{3}z(1-p)^2p+\cdots+\frac{1}{k}z(1-p)^{k-1}p, & 0

2/ 使用蒙特卡洛方法验证

算出来的答案还不知道是否正确,我们可以使用蒙特卡洛方法来验证。其基本思想就是通过生成大量的数据,模拟分布的情况,在数据量足够大的情况,可以较好的把问题模拟出来。

代码在文章的末尾会附上。

首先,根据算出来的答案,可以整理成为:

$$ F_z(z)=p\sum_{m=1}^{j}(1-p)^{m-1}+zp\sum_{k=j+1}^{\infty}\frac{1}{k}(1-p)^{k-1}, j<z\le j+1, j=0,1,2,3,... $$

在代码实现上,不能将 $k$ 一直计算到无穷大,由于当 $k$ 大于一定的数时,对于整个函数的贡献很小,故设定了一个最大的 $k$ 值 $k_{max}=200$。

根据蒙特卡洛方法,我们利用 Python 的 NumPy 库,产生几何分布和在 $[0, 1]$ 上的均匀分布随机数,即生成大量的 $X$ 和 $Y$,然后让 $Z=XY$,通过统计,计算在不同的区间上所包含的数据点,画出直方图:

MonteCarlo 模拟直方图

图 1. 利用 MonteCarlo 模拟出的直方图,其中几何分布的 $p=0.1$,所选取的数据点数为 $20000$ 个,每个区间的宽度为 $1$。由于当 $z\gt 40$ 时出现的概率很低,故将区间的最大值设为 $40$。

概率分布函数对 $z$ 求导,得到:

$$ f_z(z)=p\sum_{k=j+1}^{\infty}\frac{1}{k}(1-p)^{k-1}, j<z\le j+1, j=0,1,2,3,... $$

可以知道概率密度函数在不同的区间上有不同的取值,同一区间范围取值相同,即在概率分布函数上看,应该是会随着区间的不同,有不一样的斜率,并且曲线斜率在递减。

MonteCarlo 模拟 PDF 对比图

图 2. MonteCarlo 直方图(蓝色)和概率密度函数(橙色)对比图。从左到右依次为选择 200、2000、20000 个数据点做出的曲线。

由题目计算出来的函数为概率分布函数,将直方图每个区间的进行 np.cumsum() 函数累加,就可以算出蒙特卡洛模拟的概率分布:

MonteCarlo 模拟概率分布对比图

图 3. MonteCarlo (蓝色)和计算出的函数(橙色)对比图。从左到右依次为选择 200、2000、20000 个数据点做出的曲线,蓝色曲线随着数据点选取数量的增加,越接近橙色曲线。

附上模拟的代码:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(222)

# 把计算得到的函数写成一个函数
def distribution_z(z, p, max_k = 200):
    import math
    j = int(math.floor(z))
    A = 0
    for m in range(1, j + 1):
        A += (1 - p) ** (m - 1)
    A *= p
    
    B = 0
    for k in range(j + 1, max_k + 1):
        a = (1 - p) ** (k - 1)
        a /= k
        B += a
    B *= z * p

    return A + B

def pdf_z(z, p, max_k = 200):
    import math
    j = int(math.floor(z))
    B = 0
    for k in range(j + 1, max_k + 1):
        a = (1 - p) ** (k - 1)
        a /= k
        B += a
    return B * p

p = 0.1
# 选取数据点,点越多越精确
dataPoints = 20000

Unit = np.random.rand(dataPoints)
Geom = np.random.geometric(p, dataPoints)
distri_of_Monte = Geom * Unit

# 概率密度函数 PDF
plt.hist(distri_of_Monte, bins = 40, range = (0, 40))
points_of_z = np.arange(0, 41, 0.01)
pdf_of_z = np.array([pdf_z(zi, p) for zi in points_of_z]) * dataPoints
plt.plot(points_of_z, pdf_of_z)
# print(pdf_of_z)
plt.show()

hist, bin_edges = np.histogram(distri_of_Monte, bins = 40, range = (0, 40))

# 概率分布函数 CDF
hist_list = np.cumsum(hist) / dataPoints

plt.plot(bin_edges[1:], hist_list)

points_of_z = np.arange(1, 41, 0.1)
distri_of_z = [distribution_z(zi, p) for zi in points_of_z]

plt.plot(points_of_z, distri_of_z)

plt.show()
目录
相关文章
|
20天前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
40 3
|
2月前
|
测试技术 API Python
【10月更文挑战第1天】python知识点100篇系列(13)-几种方法让你的电脑一直在工作
【10月更文挑战第1天】 本文介绍了如何通过Python自动操作鼠标或键盘使电脑保持活跃状态,避免自动息屏。提供了三种方法:1) 使用PyAutoGUI,通过安装pip工具并执行`pip install pyautogui`安装,利用`moveRel()`方法定时移动鼠标;2) 使用Pymouse,通过`pip install pyuserinput`安装,采用`move()`方法移动鼠标绝对位置;3) 使用PyKeyboard,同样需安装pyuserinput,模拟键盘操作。文中推荐使用PyAutoGUI,因其功能丰富且文档详尽。
|
4天前
|
数据可视化 算法 数据挖掘
Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析
蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。
37 15
|
8天前
|
安全
Python-打印99乘法表的两种方法
本文详细介绍了两种实现99乘法表的方法:使用`while`循环和`for`循环。每种方法都包括了步骤解析、代码演示及优缺点分析。文章旨在帮助编程初学者理解和掌握循环结构的应用,内容通俗易懂,适合编程新手阅读。博主表示欢迎读者反馈,共同进步。
|
15天前
|
JSON 安全 API
Python调用API接口的方法
Python调用API接口的方法
73 5
|
24天前
|
算法 决策智能 Python
Python中解决TSP的方法
旅行商问题(TSP)是寻找最短路径,使旅行商能访问每个城市一次并返回起点的经典优化问题。本文介绍使用Python的`ortools`库解决TSP的方法,通过定义城市间的距离矩阵,调用库函数计算最优路径,并打印结果。此方法适用于小规模问题,对于大规模或特定需求,需深入了解算法原理及定制策略。
34 15
WK
|
1月前
|
Python
Python中format_map()方法
在Python中,`format_map()`方法用于使用字典格式化字符串。它接受一个字典作为参数,用字典中的键值对替换字符串中的占位符。此方法适用于从字典动态获取值的场景,尤其在处理大量替换值时更为清晰和方便。
WK
77 36
|
22天前
|
机器学习/深度学习 人工智能 算法
强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用
本文探讨了强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用,通过案例分析展示了其潜力,并讨论了面临的挑战及未来发展趋势。强化学习正为游戏AI带来新的可能性。
58 4
|
28天前
|
Python
Python编程中的魔法方法(Magic Methods)
【10月更文挑战第40天】在Python的世界中,魔法方法就像是隐藏在代码背后的神秘力量。它们通常以双下划线开头和结尾,比如 `__init__` 或 `__str__`。这些方法定义了对象的行为,当特定操作发生时自动调用。本文将揭开这些魔法方法的面纱,通过实际例子展示如何利用它们来增强你的类功能。
14 1
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
11种经典时间序列预测方法:理论、Python实现与应用
本文将总结11种经典的时间序列预测方法,并提供它们在Python中的实现示例。
87 2
11种经典时间序列预测方法:理论、Python实现与应用