Python之LDA主题模型算法应用

简介: Python之LDA主题模型算法应用

在这篇文章中,我将介绍用于Latent Dirichlet Allocation(LDA)的lda Python包的安装和基本用法。我不会在这篇文章中介绍该方法的理论基础。然而,这个模型的主要参考,Blei etal 2003可以在线免费获得,我认为将语料库(文档集)中的文档分配给基于单词矢量的潜在(隐藏)主题的主要思想是相当容易理解的而这个例子(来自lda)将有助于巩固我们对LDA模型的理解。那么,让我们开始......


安装lda

在之前的帖子中,我介绍了使用pipvirtualenwrapper安装Python包,请参阅帖子了解更多详细信息:

  • 在Ubuntu 14.04上安装Python包
  • 在Ubuntu 14.04上的virtualenv和virtualenvwrapper

简而言之,我将提到两种方法:

  • 方法1

我将以用户身份安装lda

1. $ pip install --user lda

这也将安装所需的pbr包。现在我将 在一个设置中提供lda,其中包含我之前安装的所有其他软件包(再次参见上文)。使用此方法,您应该在安装后得到类似的内容:

1. $ pip show lda
---

名称:lda

版本:0.3.2

位置:/home/cstrelioff/.local/lib/python2.7/site-packages

需要:pbr,numpy

我已经安装了numpy,因此没有修改。

所以,就是这样,lda已经安装好了。让我们一起完成随包提供的示例。


一个例子

lda github存储库中的示例查看路透社新闻发布的语料库 - 让我们复制一下并添加一些细节以更好地了解正在发生的事情。此要点提供了一个包含所有要遵循的代码的脚本,名为 ex002_lda.py。首先,我们做一些导入:

import numpy as np


import lda


import lda.datasets

接下来,我们导入用于示例的数据。这包含在 lda包中,因此这一步很简单(我还打印出每个项目的数据类型和大小):

从上面我们可以看到有395个新闻项目(文档)和一个大小为4258的词汇表。文档术语矩阵X具有395个词汇表中每个4258个词汇单词的出现次数。文档。例如,X [0,3117]是单词3117在文档0中出现的次数。我们可以找出计数和与之对应的单词(让我们也得到文档标题):

doc_id = 0


word_id = 3117


print (“doc id:{} word id:{}” 。format (doc_id , word_id ))


print (“ - count:{}” 。format (X [ doc_id , word_id ]))


print (“ - word:{}” 。format (vocab [ word_id ]))


print (“ - doc:{}” 。format (titles [ doc_id ]))


doc id :0 word id :3117


- count :2


- word :heir - to - the - throne

 当然我们应该期望X 矩阵中有很多零 - 我选择这个例子来获得非零结果。


选择模型

接下来,我们初始化并拟合LDA模型。要做到这一点,我们必须选择主题的数量(其他方法也可以尝试查找主题的数量,但对于LDA,我们必须假设一个数字)。继续我们选择的示例:

1. model = lda 。LDA (n_topics = 20 , n_iter = 500 , random_state = 1 )

先前有几个参数我们保留默认值。据我所知,这只使用对称先验 - 我将不得不更多地研究它(参见Wallach etal 2009讨论这个问题)。


主题字

从拟合模型中我们可以看到主题词概率:

从输出的大小我们可以看出,对于20个主题中的每一个,我们在词汇表中分配了4258个单词。对于每个主题,应该对单词的概率进行标准化。我们来看看前5:

for n in range (5 ):


sum_pr = sum (topic_word [ n ,:])


print (“topic:{} sum:{}” 。format (n , sum_pr ))
 

我们还可以获得每个主题的前5个单词(按概率):

 * 主题 6


- 德国 德国 战争 政治 政府


* 主题 7


- 哈里曼 你。小号 克林顿 丘吉尔 大使


* 主题 8


- 叶利钦 的俄罗斯 俄罗斯 总统 克里姆林宫


* 主题 9


- 王子 女王 鲍尔斯 教会 王


* 主题 10


- 辛普森 亿 年前 南


- bernardin 红衣主教 癌症 教会 生活


* 主题 17


- 死于 丧葬 教会 城市 死亡


* 主题 18


- 博物馆 肯尼迪 文化 城市 文化


* 主题 19


- 艺术 展 世纪 城市 之旅

这让我们了解了20个主题可能意味着什么?


文档主题

我们从模型中获得的其他信息是文档主题概率:


doc_topic = model .doc_topic_

查看输出的大小,我们可以看到395个文档中的每个文档都有20个主题的分布。这些应该针对每个文档进行标准化,让我们测试前5个:

for n in range (5 ):


sum_pr = sum (doc_topic [ n ,:])


print (“document:{} sum:{}” 。format (n , sum_pr ))

文件 0 总和 1.0

文件 1 总和 1.0

文件 2 总和 1.0

文件 3 总和 1.0

文件 4 总和 1.0

使用新故事的标题,我们可以对最可能的主题进行抽样:

for n in range (10 ):


topic_most_pr = doc_topic [ n ] 。argmax ()


print (“doc:{} topic:{} \ n {} ...” 。format (n ,


topic_most_pr ,


titles [ n ] [:50 ]))

可视化

让我们看看一些主题词分布是什么样的。这里的想法是每个主题应该有一个独特的单词分布。在下面的词干图中,每个词干的高度反映了焦点主题中单词的概率:

plt .tight_layout ()


plt .show ()

最后,让我们看一下几个文档的主题分布。这些分布给出了每个文档的20个主题中每个主题的概率。我只会画一些:

1. plt .tight_layout ()
plt .show ()

 

 

相关文章
|
27天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
2天前
|
机器学习/深度学习 数据采集 自然语言处理
数据分享|Python酒店评论文本分析:tfidf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近KNN、随机森林、LDA主题模型
数据分享|Python酒店评论文本分析:tfidf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近KNN、随机森林、LDA主题模型
|
5天前
|
算法 数据可视化 Python
Python用MCMC马尔科夫链蒙特卡洛、拒绝抽样和Metropolis-Hastings采样算法
Python用MCMC马尔科夫链蒙特卡洛、拒绝抽样和Metropolis-Hastings采样算法
16 6
|
6天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
33 12
|
12天前
|
算法 数据可视化 Python
Python贝叶斯推断Metropolis-Hastings(M-H)MCMC采样算法的实现
Python贝叶斯推断Metropolis-Hastings(M-H)MCMC采样算法的实现
14 0
|
13天前
|
算法 数据可视化 Python
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
19 0
|
13天前
|
机器学习/深度学习 算法 Python
使用Python实现集成学习算法:Bagging与Boosting
使用Python实现集成学习算法:Bagging与Boosting
20 0
|
14天前
|
Python
在PYTHON中进行主题模型LDA分析
在PYTHON中进行主题模型LDA分析
19 4
|
14天前
|
自然语言处理 数据可视化 Python
python主题建模可视化LDA和T-SNE交互式可视化
python主题建模可视化LDA和T-SNE交互式可视化
17 0
|
14天前
|
缓存 算法 Python
python算法对音频信号处理Sonification :Gauss-Seidel迭代算法
python算法对音频信号处理Sonification :Gauss-Seidel迭代算法
10 0