R语言社区主题检测算法应用案例

简介: R语言社区主题检测算法应用案例

使用R检测相关主题的社区


创建主题网络

对于Project Mosaic,我正在通过分析抽象文本和共同作者社交网络来研究UNCC在社会科学和计算机和信息学方面的出版物。

我遇到的一个问题是:如何衡量主题之间的关系(相关性)?特别是,我想创建一个连接类似主题的网络可视化,并帮助用户更轻松地浏览大量主题(在本例中为100个主题)。


数据准备

我们的第一步是加载作为LDA输出的主题矩阵。LDA有两个输出:字主题矩阵和文档主题矩阵。

作为加载平面文件的替代方法,您可以使用topicmodels包lda函数的输出来创建任何单词主题和文档主题矩阵。

# 读取作者主题矩阵
author.topic <- read.csv("./author_topics.csv", stringsAsFactors = F)
#

top.words <- word.topics[order(-word.topic[,i])]
name$topic_name[i] <- paste(top.words[1:5], collapse = " + ")
}
# 
colnames(author.topic) <- c("author_name",name$topic_name)

与摘要是文档的标准LDA不同,我运行了一个“以作者为中心”的LDA,其中所有作者的摘要被合并并被视为每个作者的一个文档。我跑这是因为我的最终目标是使用主题建模作为信息检索过程来确定研究人员的专业知识。


创建静态网络

在下一步中,我使用每个主题的单词概率之间的相关性创建一个网络。

首先,我决定只保留具有显着相关性(20%+相关性)的关系(边缘)。我使用20%,因为它对于100个观察维基百科的样本具有0.05的统计显着性水平。


cor_threshold <- .2
接下来,我们使用相关矩阵来创建igraph数据结构,删除所有具有小于20%最小阈值相关性的边。


library(igraph)
让我们绘制一个简单的igraph网络。


par(mar=c(0, 0, 3, 0))y30")title("Strength Between Topics Based On Word Probabilities", cex.main=.8)


每个数字代表一个主题,每个主题都有编号以识别它。

使用社区检测,特别是igraph中的标签传播算法来确定网络中的群集。

clp <- cluster_label_prop(graph)class(clp)title("Community Detection in Topic Network", cex.main=.8)

社区检测发现了13个社区,以及每个孤立主题的多个额外社区(即没有任何联系的主题)。

与我最初的观察结果类似,该算法找到了我们在第一个图中识别的三个主要聚类,但也添加了其他较小的聚类,这些聚类似乎不适合三个主要聚类中的任何一个。

V(graph)$community <- clp$membershipV(graph)$degree <- degree(graph, v = V(graph))

动态可视化

在本节中,我们将使用visNetwork允许R中的交互式网络图的包。

首先,让我们调用库并运行visIgraph一个交互式网络,但是使用igraph图形设置在igraph结构(图形)上运行。

library(visNetwork)


这是一个良好的开端,但我们需要有关网络的更多详细信息。

让我们通过创建visNetwork数据结构走另一条路。为此,我们将igraph结构转换为visNetwork数据结构,然后将列表分成两个数据帧:节点和边缘。

data <- toVisNetworkData(graph)nodes <- data[[1]]


删除没有连接的节点(主题)(度= 0)。

nodes <- nodes[nodes$degree != 0,]


让我们添加颜色和其他网络参数来改善我们的网络。

library(RColorBrewer)col <- brewer.pal(12, "Set3")[as.factor(nodes$community)]nodes$shape <- "dot"s$betweenness))+.2)*20 # Node sizenodes$color.highlight.background <- "orange"


最后,让我们用交互式情节创建我们的网络。您可以使用鼠标滚轮进行缩放。


visNetwork(nodes, edges) %>%visOptions(highlightNearest = TRUE, selectedBy = "community", nodesIdSelection = TRUE)


首先,有两个下拉菜单。第一个下拉列表允许您按名称查找任何主题(按单词概率排名前五个单词)。

第二个下拉列表突出显示了我们算法中检测到的社区。

最大的三个似乎是:

  • 计算(灰色,簇4)
  • 社交(绿蓝,簇1)
  • 健康(黄色,簇2)

检测到的较小社区有什么独特之处?你能解释一下吗?


相关文章
|
8天前
|
数据可视化
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-4
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
36 1
|
4天前
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
10 0
|
5天前
|
数据可视化 数据挖掘
【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享
【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享
12 2
|
3天前
|
编解码 算法 数据可视化
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
|
3天前
|
数据可视化 数据挖掘
R语言生存分析数据分析可视化案例(上)
R语言生存分析数据分析可视化案例
|
4天前
|
前端开发 数据挖掘
R语言POT超阈值模型在洪水风险频率极值分析中的应用研究
R语言POT超阈值模型在洪水风险频率极值分析中的应用研究
|
4天前
|
机器学习/深度学习 算法 数据可视化
R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择分类心肌梗塞数据模型案例(上)
R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择分类心肌梗塞数据模型案例
|
4天前
|
数据采集 机器学习/深度学习 数据可视化
R语言在社会科学研究中的应用
【4月更文挑战第26天】R语言在社会科学研究中扮演关键角色,因其强大的统计分析、灵活的数据处理及丰富的扩展包备受青睐。从数据清洗到假设检验,再到结构方程模型和文本挖掘,R提供全面支持。其在数据预处理、描述性统计、假设检验、网络分析和文本挖掘方面的工具促进了研究效率和复现性,随着社区发展,R在社会科学研究中的应用将更加广泛。
|
5天前
|
机器学习/深度学习 算法 数据挖掘
R语言在金融分析中的应用
【4月更文挑战第25天】R语言在金融分析中扮演关键角色,尤其在风险管理、资产定价、量化交易、市场预测和投资组合优化方面。作为开源的统计计算和图形平台,R语言拥有强大的统计功能、丰富的包支持和交互式环境。在风险管理中,R用于评估和管理风险,如VaR和ES;在资产定价上,它支持经典模型和衍生品定价;在量化交易领域,R提供策略开发和回测工具;市场预测利用R的统计和机器学习功能;而在投资组合优化上,R帮助确定最佳资产配置。随着金融技术发展,R语言的应用将持续增长。
|
5天前
|
算法 数据可视化
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
【视频】Copula算法原理和R语言股市收益率相依性可视化分析