Python之LDA主题模型算法应用

2024-04-16 71

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python之LDA主题模型算法应用

在这篇文章中，我将介绍用于Latent Dirichlet Allocation（LDA）的lda Python包的安装和基本用法。我不会在这篇文章中介绍该方法的理论基础。然而，这个模型的主要参考，Blei etal 2003可以在线免费获得，我认为将语料库（文档集）中的文档分配给基于单词矢量的潜在（隐藏）主题的主要思想是相当容易理解的而这个例子（来自lda）将有助于巩固我们对LDA模型的理解。那么，让我们开始......

安装lda

在之前的帖子中，我介绍了使用pip和 virtualenwrapper安装Python包，请参阅帖子了解更多详细信息：

在Ubuntu 14.04上安装Python包
在Ubuntu 14.04上的virtualenv和virtualenvwrapper

简而言之，我将提到两种方法：

方法1：

我将以用户身份安装lda

1. $ pip install --user lda

这也将安装所需的pbr包。现在我将在一个设置中提供lda，其中包含我之前安装的所有其他软件包（再次参见上文）。使用此方法，您应该在安装后得到类似的内容：

1. $ pip show lda
---

名称：lda

版本：0.3.2

位置：/home/cstrelioff/.local/lib/python2.7/site-packages

需要：pbr，numpy

我已经安装了numpy，因此没有修改。

所以，就是这样，lda已经安装好了。让我们一起完成随包提供的示例。

一个例子

lda github存储库中的示例查看路透社新闻发布的语料库 - 让我们复制一下并添加一些细节以更好地了解正在发生的事情。此要点提供了一个包含所有要遵循的代码的脚本，名为 ex002_lda.py。首先，我们做一些导入：

import numpy as np


import lda


import lda.datasets

接下来，我们导入用于示例的数据。这包含在 lda包中，因此这一步很简单（我还打印出每个项目的数据类型和大小）：

从上面我们可以看到有395个新闻项目（文档）和一个大小为4258的词汇表。文档术语矩阵X具有395个词汇表中每个4258个词汇单词的出现次数。文档。例如，X [0,3117]是单词3117在文档0中出现的次数。我们可以找出计数和与之对应的单词（让我们也得到文档标题）：

doc_id = 0


word_id = 3117


print （“doc id：{} word id：{}” 。format （doc_id ， word_id ））


print （“ - count：{}” 。format （X [ doc_id ， word_id ]））


print （“ - word：{}” 。format （vocab [ word_id ]））


print （“ - doc：{}” 。format （titles [ doc_id ]））


doc id ：0 word id ：3117


- count ：2


- word ：heir - to - the - throne

当然我们应该期望X 矩阵中有很多零 - 我选择这个例子来获得非零结果。

选择模型

接下来，我们初始化并拟合LDA模型。要做到这一点，我们必须选择主题的数量（其他方法也可以尝试查找主题的数量，但对于LDA，我们必须假设一个数字）。继续我们选择的示例：

1. model = lda 。LDA （n_topics = 20 ， n_iter = 500 ， random_state = 1 ）

先前有几个参数我们保留默认值。据我所知，这只使用对称先验 - 我将不得不更多地研究它（参见Wallach etal 2009讨论这个问题）。

主题字

从拟合模型中我们可以看到主题词概率：

从输出的大小我们可以看出，对于20个主题中的每一个，我们在词汇表中分配了4258个单词。对于每个主题，应该对单词的概率进行标准化。我们来看看前5：

for n in range （5 ）：


sum_pr = sum （topic_word [ n ，：]）


print （“topic：{} sum：{}” 。format （n ， sum_pr ））

我们还可以获得每个主题的前5个单词（按概率）：

 * 主题 6


- 德国 德国 战争 政治 政府


* 主题 7


- 哈里曼 你。小号 克林顿 丘吉尔 大使


* 主题 8


- 叶利钦 的俄罗斯 俄罗斯 总统 克里姆林宫


* 主题 9


- 王子 女王 鲍尔斯 教会 王


* 主题 10


- 辛普森 亿 年前 南


- bernardin 红衣主教 癌症 教会 生活


* 主题 17


- 死于 丧葬 教会 城市 死亡


* 主题 18


- 博物馆 肯尼迪 文化 城市 文化


* 主题 19


- 艺术 展 世纪 城市 之旅

这让我们了解了20个主题可能意味着什么？

文档主题

我们从模型中获得的其他信息是文档主题概率：

doc_topic = model .doc_topic_

查看输出的大小，我们可以看到395个文档中的每个文档都有20个主题的分布。这些应该针对每个文档进行标准化，让我们测试前5个：

for n in range （5 ）：


sum_pr = sum （doc_topic [ n ，：]）


print （“document：{} sum：{}” 。format （n ， sum_pr ））

文件： 0 总和： 1.0

文件： 1 总和： 1.0

文件： 2 总和： 1.0

文件： 3 总和： 1.0

文件： 4 总和： 1.0

使用新故事的标题，我们可以对最可能的主题进行抽样：

for n in range （10 ）：


topic_most_pr = doc_topic [ n ] 。argmax （）


print （“doc：{} topic：{} \ n {} ...” 。format （n ，


topic_most_pr ，


titles [ n ] [：50 ]））

可视化

让我们看看一些主题词分布是什么样的。这里的想法是每个主题应该有一个独特的单词分布。在下面的词干图中，每个词干的高度反映了焦点主题中单词的概率：

plt .tight_layout （）


plt .show （）

最后，让我们看一下几个文档的主题分布。这些分布给出了每个文档的20个主题中每个主题的概率。我只会画一些：

1. plt .tight_layout （）
plt .show （）

Python之LDA主题模型算法应用

安装lda

一个例子

选择模型

主题字

文档主题

可视化

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python之LDA主题模型算法应用

安装lda

一个例子

选择模型

主题字

文档主题

可视化

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像