R语言贝叶斯Metropolis-Hastings采样 MCMC算法理解和应用可视化案例

简介: R语言贝叶斯Metropolis-Hastings采样 MCMC算法理解和应用可视化案例

贝叶斯MCMC模拟是一个丰富的领域,涵盖了各种算法,共同目标是近似后验模型点击文末“阅读原文”获取完整代码数据

相关视频

image.png

例如,使用的rstan包采用了一个Hamiltonian Monte Carlo算法。用于贝叶斯建模的另一个rjags包采用了Gibbs sampling算法。尽管细节有所不同,但这两种算法都是基于基本的Metropolis-Hastings算法的变体。

主要思想

考虑以下数值结果为Y的正态-正态模型,其围绕未知均值μ的标准差为0.75:

ab4f331cf424a57e73f4587988539dd9.png

相应的似然函数L(μ|y)和先验概率密度函数f(μ)对于y∈(−∞,∞)和μ∈(−∞,∞)是:

50f1fb0ec77de4fa0fbbb3b6de0bbf32.png

假设我们观察到一个结果Y=6.25。μ的后验模型是具有均值4和标准差0.6的正态分布:

8163e930f9f456d936f342e1d74a5658.png

如果我们无法指定μ的后验模型(假装一下),我们可以使用MCMC模拟来近似它。为了了解这是如何工作的,考虑一个潜在的N=5000次迭代的MCMC模拟结果。将这个马尔可夫链{μ(1),μ(2),…,μ(N)}视为μ的后验可能值范围的一次游览,你可以将自己看作是导游。左侧的轨迹图显示了游览路线或游览站点的顺序,μ(i)。右侧的直方图显示了你在每个μ区域中停留的相对时间。

93887157dd47625bd4ab375f55a14378.png

我们可以通过简单地使用rnorm()从N(4,0.62)后验中直接抽样来实现这个算法。结果是来自后验的一个很好的独立样本,这反过来又产生了一个准确的后验近似:

set.seed(84375)
mc_tour <- data.frame(mu = rnorm(5000, mean = 4, sd = 0.6))
ggplot(mc_tour, aes(x = mu)) + 
  geom_histogram(aes(y = ..density..), color = "white", bins = 15) + 
  stat_function(fun = dnorm, args = list(4, 0.6), color = "blue")

5e52f9c7d19d0a98b7ea93708086e411.png


点击标题查阅往期内容


R语言贝叶斯MCMC:GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例


5ae4a05b3da6628dd3a28ea9a7b47831.png


Metropolis-Hastings算法

用于构建马尔可夫链{μ(1),μ(2),...,μ(N)}的Metropolis-Hastings算法在这里得到了规范。我们将始终乐意将我们移动到更合理的后验区域。例如,假设我们的马尔可夫游览当前位于位置“3”:

current <- 3

然后,要确定下一个游览站点,我们首先通过从Unif(current - 1, current + 1)模型中随机抽样来提出一个位置(步骤1):

set.seed(8)
proposal

6a737659fd2ad61ee6ace1865421a904.png

重新查看图,我们观察到所提议的点(2.93)的(未归一化的)后验可能性略微低于当前点(3)。我们可以使用dnorm()计算这两个μ的未归一化后验可能性,即f(μ|y=6.25)∝f(μ)L(μ|y=6.25)。

prolaus <- dnorm(osal, 0, 1) * dnorm(6.25, proal, 0.75)
curaus  <- dnorm(curnt, 0, 1) * dnorm(6.25, nt, 0.75)

45602c7fbc4bfed06a255dc904c97900.png

de54340d44393e1dd88d2a38e3a7403d.png

由此可见,尽管不确定,接受并随后移动到所提议位置的概率α的相对高:

alpha <- min(1, prplaus / curr_plaus)
alpha

9ed9eb7518bac8228082fcdb9c11e569.png

为了做出最终决定,我们设置了一个加权硬币,它以概率α(0.824)接受提议,并以概率1−α(0.176)拒绝提议。通过sample()函数随机抛掷这个硬币,我们接受了提议,意味着下一点是2.933:

nex_sop <- sape(c(roposl, curet),
                    size = 1, ob = c(alha, 1-apha))
net_top

4d4b536b2722187b5b9bb60745d2c46c.png

这仅仅是对我们的正态后验进行一次Metropolis-Hastings算法迭代的无数可能结果之一。为了简化这个过程,我们将编写自己的R函数one_mh_iteration(),该函数实现从任何给定的当前点开始的单个Metropolis-Hastings迭代,并利用具有任意半宽度w的均匀提议模型。

我们首先指定one_mhiteation是两个参数的function():均匀分布的范围w和当前链值current

在函数内部,我们执行与上面相同的步骤,并return()三个信息:proposal、接受概率alphanext_stop

one_meration <- fntion(w, crret){
 # 第一步:提议下一个链位置
 prpsal <- runif(1, nt - w, max = crrent+ w)
  
 # 第二步:决定是否移动到新位置
 prop_plau <- dnorm(prpoal, 0, 1) * dnorm(625, proosl, 0.75)
 curetplaus  <- dnorm(cunt, 0, 1) * dnorm(6.25, urent, 0.75)
 alpha <- min(1, propoalplaus / current_plaus)
 
 # 返回结果
 return(dta.fame(proposa, alph, next_stp))
}

让我们试一试。在种子为8的情况下从当前点3运行onemh_ieration()可以复制上面的结果:

set.seed(8)
one_h_itraton(w = 1, current = 3)

16465c04f2cef3627f918acfd469c6be.png

如果我们使用83这个种子,所提议的下一个点是2.018,对应的接受概率很低,只有0.017:

set.eed(83)
one_mh_itraton(w =1, crrent = 3)


fc5002b030089e43d00b2eb6fe9feaf4.png

这是有道理的。从图中可以看出,2.018的后验可能性远低于我们当前所在地3的后验可能性。虽然我们确实想要探索这样极端的值,但我们不想经常这样做。事实上,在我们投掷硬币时,提议被拒绝,并且旅游将再次访问位置3。

我们可以确认当所提议的下一个旅游站点(这里是3.978)的后验可能性大于我们当前位置时,接受概率为1,提议将自动接受:

set.seed(7)
onemh_ieratonw = 1, urrnt = 3)


5e11cf1ed714d8655cc5a29ebb6d938c.png

实施Metropolis-Hastings

现在,我们需要一遍又一遍地重复上一个单个迭代的过程来构建一个由N(4,0.62)后验分布组成的Metropolis-Hastings。下面的mh_tour()函数可以构建一个给定长度N的Metropolis-Hastings,利用任何给定半宽度w的均匀提议模型:

mh_tour <- function(N, w){
  # 1. 在位置3开始
  curet <- 3
  # 2. 初始化模拟
  mu <- rep(0, N)
  # 3. 模拟N个马尔科夫链停止
  for(i in 1:N){    
    # 模拟一个迭代
    sim <- onemh_itrationw = w,currnt  crrent)
    
    # 记录下一个位置
    mu[i] <- si$xt_top
    
    # 重置当前位置
    current <- sim$nt_tp
  }
  
  # 4. 返回位置
  retun(datfrae(tratio= c(:N,mu))
}

在调用此函数时:

  1. 在位置3处开始,这是一个基于我们对μ的先前了解而做出的相当任意的选择。
  2. 通过设置“空”向量来初始化模拟,我们最终将在其中存储N次停止的位置(mu)。
  3. 利用for循环,在1到N的每个停留点i中运行on_m_iteaion(),并将结果的next_stop存储在mu向量的第i个元素中。在关闭for循环之前,更新current停止以作为下一次迭代的起点。
  4. 返回具有迭代号和相应停留点mu的数据框。

要查看此函数的实际应用,请使用m_our()模拟长度为N = 5000的Markov链,利用半宽度w=1的均匀提议模型:

set.seed(84735)
mh_sulio_1 <- m_our(N = 5000, w = 1)

下面显示了结果的跟踪图和直方图。值得注意的是,产生了对N(4,0.62)后验分布的极其准确的近似。通过严格过程,我们利用了均匀分布的相关采样来近似正态分布。

ggplo= 20) + 
  stat_fuctin(fun = dnorm,args = ist(4,0.6), color = "blue")

c4eb15710d562d2bb7d5d2874d09bf71.png

Beta-Binomial模型例子

让我们实现Metropolis-Hastings算法来处理一个Beta-Binomial模型,其中我们观察到在2次尝试中有1次成功,即 Y=1,n=2: 。

603a23a565d828b21bce43deb11d5ee6.png

同样,假设我们只能将后验概率密度上定义到某些缺失的归一化常数,

23cf8cf5f2ea6b8637152c8813ed1938.png

下面的oneiertion()函数实现了该独立采样算法的单次迭代,从任何给定的当前值π开始,并对给定的a和b使用Beta(a,b)建议模型。在计算接受概率α时,请注意我们使用dbeta()来评估先验概率密度函数和建议概率密度函数,以及使用dbinom()来评估具有数据Y=1,n=2,π的二项式似然函数:

one_terton <- function(a, , curnt){
# 第 1 步:提出下一个链位置
 proposal <- rbeta(1, a, b)
  
 # 第 2 步:决定
 
 popoal_plas <- deta(prposa, 2, 3) * dbno(1, 2, prosal)
 proposlq     <- dbeta(prpsal, a, b)
 curentplus  <- dbea(curet, 2, 3) * dbnom(1, 2, )
 curnt_q      <- dbeta(curent, a, b)

接下来,我们编写一个betbn_tour()函数,为任何Beta(a,b)建议模型构建一个N长度的Markov链遍历,利用one_iertion()来确定每个停止位置:


beai_tour <- fucton(N, a, b){
  # 1. 位置0.5开始链
  current <- 0.5
  # 2. 初始化模拟
  pi <- rp(0, N)
  
  # 3. 模拟N次Markov链停止
  for(i in 1:N){    
    # 模拟一次迭代
    sim <- on_ieaion(a = a, b = b, crent = curent)
    
    # 记录下一个位置
    pi[i] <- simnet_sop
    
    # 重置当前位置
    current <- simnetstop
  }
}

我们尝试不同调整的Beta(a,b)建议模型。在这里,为了简单起见,我们使用Beta(1,1),即Unif(0,1)的建议模型进行了5000步的Beta-Binomial后验分布遍历


set.seed(84735)
bebn_im <- betb_tour(N = 5000, a = 1, b = 1)
# 绘制结果
ggplot(beta

总结

本文建立了对基本的Metropolis-Hastings MCMC算法的概念理解。还实现了该算法来研究常见的正态-正态和Beta-Binomial模型。无论是在这些相对简单的单参数模型设置中,还是在更复杂的模型设置中,Metropolis-Hastings算法通过两个步骤之间的迭代产生了后验分布的近似样本:

  1. 通过从提议概率密度函数中抽取一个新的链位置来提出一个新的位置,这可能取决于当前位置。
  2. 确定是否接受提议。简单地说,我们是否接受提议取决于其后验可能性相对于当前位置的后验可能性有多有利。

相关文章
|
4天前
|
监控 算法 JavaScript
公司局域网管理视域下 Node.js 图算法的深度应用研究:拓扑结构建模与流量优化策略探析
本文探讨了图论算法在公司局域网管理中的应用,针对设备互联复杂、流量调度低效及安全监控困难等问题,提出基于图论的解决方案。通过节点与边建模局域网拓扑结构,利用DFS/BFS实现设备快速发现,Dijkstra算法优化流量路径,社区检测算法识别安全风险。结合WorkWin软件实例,展示了算法在设备管理、流量调度与安全监控中的价值,为智能化局域网管理提供了理论与实践指导。
27 3
|
11天前
|
存储 监控 算法
基于 C# 时间轮算法的控制局域网上网时间与实践应用
在数字化办公与教育环境中,局域网作为内部网络通信的核心基础设施,其精细化管理水平直接影响网络资源的合理配置与使用效能。对局域网用户上网时间的有效管控,已成为企业、教育机构等组织的重要管理需求。这一需求不仅旨在提升员工工作效率、规范学生网络使用行为,更是优化网络带宽资源分配的关键举措。时间轮算法作为一种经典的定时任务管理机制,在局域网用户上网时间管控场景中展现出显著的技术优势。本文将系统阐述时间轮算法的核心原理,并基于 C# 编程语言提供具体实现方案,以期深入剖析该算法在局域网管理中的应用逻辑与实践价值。
25 5
|
15天前
|
存储 机器学习/深度学习 算法
论上网限制软件中 Python 动态衰减权重算法于行为管控领域的创新性应用
在网络安全与行为管理的学术语境中,上网限制软件面临着精准识别并管控用户不合规网络请求的复杂任务。传统的基于静态规则库或固定阈值的策略,在实践中暴露出较高的误判率与较差的动态适应性。本研究引入一种基于 “动态衰减权重算法” 的优化策略,融合时间序列分析与权重衰减机制,旨在显著提升上网限制软件的实时决策效能。
24 2
|
27天前
|
存储 监控 算法
公司员工电脑监控软件剖析:PHP 布隆过滤器算法的应用与效能探究
在数字化办公的浪潮下,公司员工电脑监控软件成为企业管理的重要工具,它能够帮助企业了解员工的工作状态、保障数据安全以及提升工作效率。然而,随着监控数据量的不断增长,如何高效地处理和查询这些数据成为了关键问题。布隆过滤器(Bloom Filter)作为一种高效的概率型数据结构,在公司员工电脑监控软件中展现出独特的优势,本文将深入探讨 PHP 语言实现的布隆过滤器算法在该软件中的应用。
40 1
|
2月前
|
存储 监控 算法
基于 PHP 语言的滑动窗口频率统计算法在公司局域网监控电脑日志分析中的应用研究
在当代企业网络架构中,公司局域网监控电脑系统需实时处理海量终端设备产生的连接日志。每台设备平均每分钟生成 3 至 5 条网络请求记录,这对监控系统的数据处理能力提出了极高要求。传统关系型数据库在应对这种高频写入场景时,性能往往难以令人满意。故而,引入特定的内存数据结构与优化算法成为必然选择。
47 3
|
17天前
|
算法 数据安全/隐私保护
基于GA遗传算法的悬索桥静载试验车辆最优布载matlab仿真
本程序基于遗传算法(GA)实现悬索桥静载试验车辆最优布载的MATLAB仿真(2022A版)。目标是自动化确定车辆位置,使加载效率ηq满足0.95≤ηq≤1.05且尽量接近1,同时减少车辆数量与布载时间。核心原理通过优化模型平衡最小车辆使用与ηq接近1的目标,并考虑桥梁载荷、车辆间距等约束条件。测试结果展示布载方案的有效性,适用于悬索桥承载能力评估及性能检测场景。
|
17天前
|
算法 机器人 数据安全/隐私保护
基于双向RRT算法的三维空间最优路线规划matlab仿真
本程序基于双向RRT算法实现三维空间最优路径规划,适用于机器人在复杂环境中的路径寻找问题。通过MATLAB 2022A测试运行,结果展示完整且无水印。算法从起点和终点同时构建两棵随机树,利用随机采样、最近节点查找、扩展等步骤,使两棵树相遇以形成路径,显著提高搜索效率。相比单向RRT,双向RRT在高维或障碍物密集场景中表现更优,为机器人技术提供了有效解决方案。
|
1月前
|
存储 算法 调度
基于和声搜索优化算法的机器工作调度matlab仿真,输出甘特图
本程序基于和声搜索优化算法(Harmony Search, HS),实现机器工作调度的MATLAB仿真,输出甘特图展示调度结果。算法通过模拟音乐家即兴演奏寻找最佳和声的过程,优化任务在不同机器上的执行顺序,以最小化完成时间和最大化资源利用率为目标。程序适用于MATLAB 2022A版本,运行后无水印。核心参数包括和声记忆大小(HMS)等,适应度函数用于建模优化目标。附带完整代码与运行结果展示。
|
17天前
|
算法 JavaScript 数据安全/隐私保护
基于GA遗传优化的最优阈值计算认知异构网络(CHN)能量检测算法matlab仿真
本内容介绍了一种基于GA遗传优化的阈值计算方法在认知异构网络(CHN)中的应用。通过Matlab2022a实现算法,完整代码含中文注释与操作视频。能量检测算法用于感知主用户信号,其性能依赖检测阈值。传统固定阈值方法易受噪声影响,而GA算法通过模拟生物进化,在复杂环境中自动优化阈值,提高频谱感知准确性,增强CHN的通信效率与资源利用率。预览效果无水印,核心程序部分展示,适合研究频谱感知与优化算法的学者参考。
|
3天前
|
传感器 算法 数据安全/隐私保护
基于GA遗传优化的三维空间WSN网络最优节点部署算法matlab仿真
本程序基于遗传算法(GA)优化三维空间无线传感网络(WSN)的节点部署,通过MATLAB2022A实现仿真。算法旨在以最少的节点实现最大覆盖度,综合考虑空间覆盖、连通性、能耗管理及成本控制等关键问题。核心思想包括染色体编码节点位置、适应度函数评估性能,并采用网格填充法近似计算覆盖率。该方法可显著提升WSN在三维空间中的部署效率与经济性,为实际应用提供有力支持。

热门文章

最新文章