LDA 原理 下|学习笔记

简介: 快速学习 LDA 原理 下

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践LDA 原理 下】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15528


LDA 原理 下

 

LDA 推理分布

image.gifJensen是提供了p(d,θ|β),α,β是人指定的抄参,然后要算(d,θ)的联合概率,现在要考虑θ的先验概率,所以说θ出现在前面的。p(d,θ|β)不等式容易计算下界。α和β是人指定的。然后θ是需要学出来的。但是现在LD里头θ学不是一个点,不是说一个找一个最优的系统而是θ的一个分布。

因为θ符是一个Dirichlet先验,然后变成Цp(wi,zi|θd,T)参数相当于算文档概率的时候是一个参数。p(d,θ|α)* Цp(wi,zi|θd,T)结合起来,然后算后验概率。

q(Z,θ)越接近p(Z,θ|d,α)后验概率,下界就越大,所以要找q(Z,θ)进可能大,让右边儿下界尽可能大

但q(Z,θ)是很复杂的,因为Z是一个很长的序列。q(Z)是定义在序列上的一个概率分布,然后q(θ)是一个连续的一个反驳。如果说z,θ之间还有什么相关性的话,根本就没法算。

所以就只能假设q(Z),q(θ)是q(Z)*q(θ)。实际上准确的说应该用q1和q2,因为参数都不一样,肯定是不同的风格。习惯上都是使用同一个符号来表示的。相当于一个边分分布的一个组件,不同的组号相乘得到完整的变分分布。q(Z)和刚才是一样定义的,就是对这些假设是分解,乘可以连成起来。

q(θ)的后验概率Dirichlet和离散分布是共轭的,结果观测到topic出现了几次。

然后这个文档到topic的分布,后验概率仍然是Dir的。所以说那个不管是{θd}或者是T的后援概率都是Dir。所以这里用两个Dir来刻画θ的后援概率,所以q(θ)和q(Z)就不一样了,q(Z)只是近似,部分和ZI和Zg这之间是有相关性的,θ的后援概率它就是Dir,所以image.gif是可以精确求解。然后

image.gif和pLSA的差别就在刚才是固定q(θ),优化q(Z)。现在是固定q(Z)优化q(θ),q(θ)是一个分布,给不同的θ一个概率,之前是点估计,实际上也可以认为是一种分布,也就是说,θ在θ0的最优解的时候的概率为1,在其他所有的地方概率都是零,用Dirichlet分布来刻画。就是相当于平滑一些,不光是在这个最优的θ0那里概率比较大,而且在稍微偏一点的地方也不要紧。概率还比较大,然后偏太多了,概率就非常小。这样的话。这个估计就会比较鲁棒一些。这就得到了LDA的变分EM运算

{γd}这里是后验分部的参数。刚才的α是先验概率。所以说相当于这个α是(1,1,1,1,1,1,),然后观察到(5,2,1,1,1,0)然后后验概率γ是(6,3,2,2,2,1)。

其实,如果了解推理的话,这些都就都是套路了。就是先验概率,然后有数据,然后算后验概率,不可算的话,就用一些简单的分布来近似

相关文章
|
数据可视化 数据挖掘
基于Bert的文本聚类工具:BERTopic
基于Bert的文本聚类工具:BERTopic
2268 0
基于Bert的文本聚类工具:BERTopic
|
9月前
|
Java 关系型数据库 MySQL
新一代 Cron-Job分布式任务调度平台 部署指南
简单易用、超低延迟,支持用户权限管理、多语言客户端和多租户接入的分布式任务调度平台。 支持任何Cron表达式的任务调度,支持常用的分片和随机策略;支持失败丢弃、失败重试的失败策略;支持动态任务参数。
318 105
|
Linux 应用服务中间件 nginx
Linux下权限设置之suid、sgid、sticky
Linux下权限设置之suid、sgid、sticky
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
解锁机器学习的新维度:元学习的算法与应用探秘
元学习作为一个重要的研究领域,正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法,研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入,元学习有望在人工智能的未来发展中发挥更大的作用。
|
机器学习/深度学习 计算机视觉 网络架构
为什么卷积现在不火了:CNN研究热度降温的深层原因分析
纵观近年的顶会论文和研究热点,我们不得不承认一个现实:CNN相关的研究论文正在减少,曾经的"主角"似乎正逐渐淡出研究者的视野。
340 11
为什么卷积现在不火了:CNN研究热度降温的深层原因分析
|
Java API Spring
springboot学习六:Spring Boot2.x 过滤器基础入门&实战项目场景实现
这篇文章是关于Spring Boot 2.x中过滤器的基础知识和实战项目应用的教程。
395 0
springboot学习六:Spring Boot2.x 过滤器基础入门&实战项目场景实现
|
JavaScript 前端开发 开发者
Vue3:快速生成模板代码
Vue3:快速生成模板代码
|
Shell 应用服务中间件 Linux
Ansible的常用模块
Ansible的常用模块
310 6
|
机器学习/深度学习 数据采集 资源调度
【机器学习】逻辑回归:原理、应用与实践
逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计学方法,尽管其名称中含有“回归”二字,但它实际上是一种用于解决二分类或多分类问题的线性模型。逻辑回归通过使用逻辑函数(通常为sigmoid函数)将线性模型的输出映射到概率空间,从而预测某个事件发生的概率。本文将深入探讨逻辑回归的理论基础、模型构建、损失函数、优化算法以及实际应用案例,并简要介绍其在机器学习领域的地位和局限性。
1078 2
|
人工智能 IDE Java
IntelliJ IDEA 2023.3 最新变化1
IntelliJ IDEA 2023.3 最新变化
364 0