R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

简介: R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

全文链接:http://tecdat.cn/?p=32307


互联网时代,大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个尝试点击文末“阅读原文”获取完整代码数据


文本聚类其实也就是聚类分析在文本方向上的应用,首先我们要把一个个文档的自然语言转换成数学信息,这样形成高维空间点之后再去计算点与点之间的距离,然后将这些距离比较近的聚成一个簇,这些簇的中心成为簇心。而我们做的就是保证簇内点的距离足够近,簇与簇的距离足够远。

本文将通过R语言帮助客户来实现文本挖掘、聚类和词云可视化技术,体验一下舆情分析的魅力。


原始评论数据


本文获取上海玛雅水公园景区评论数据共计1692条数据:

读取数据


pinglun=read.xlsx("玛雅景区数据5.8.xlsx")

文本预处理


res=pinglun1[pinglun1!=" "];  
#剔除通用标题  
# res=gsub(pattern="[專賣店【未拆封順豐】|<b>|</b>]+"," ",res);   
#剔除特殊词  
res=gsub(pattern="[我|你|的|了|是]"," ",res);       
#清理文本里的回车!否则每个回车就会被识别成一段文本
res=gsub("\n","",res)

分词+频数统计


words=unlist(lapply(X=res, FUN=segmentCN));

过滤掉1个字和词频小于100的记录

d=subset(d, nchar(as.character(d$word))>1 & d$freq>=100)

输出关键词结果


write.table(d, file="/worldcup_keyword.txt", row.names=FALSE)

绘制词汇图


wordcloud(d$word,d$freq,random.order=FALS

点击标题查阅往期内容


自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据


01

02

03

04


kmeans聚类部分


转换成评价矩阵

rating=matrix(0,length(res1),dim(d)[1])#生成评价矩阵
for(i in 1:length(res1)){
  words=unlist(lapply(X=res1[i], FUN=segmentCN));#对每一条记录分析获得词频  
#输出评价矩阵###############################
write.table(rating, file="评价矩阵.txt", row.names=FALSE)


对评价矩阵进行k均值聚类


kmeans(rating,5)#对评价矩阵进行k均值聚类


词云可视化


#第一个类别################################
mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系:
wordcloud(colnames(result)[-c(115,116)],freq1[

第二个类别


wordcloud(colnames(result)[-c(115,116)],f

第三个类别


wordcloud(colnames(result)[-c(115,116)],freq3[-c(

1.被提及了哪些维度


第一个维度是指开心好玩,可以认为是景点的可玩性程度。第二个维度是 排队的关键词 另外包含时间,因此可以认为是景点的秩序问题。 第三个维度是项目、 公园 、喇叭 、热带、 漂流等关键词,可以认为是景点的游玩项目维度。


2.各维度关注度如何(即被提及的频率)


#第一类的关注度 可玩性程度。
guanzhu1=length(which(result$kmeansmod.cluster==1))
#第二类的关注度 景点的秩序问题
guanzhu2=length(which(result$kmeansmod.cluster==4))
#第三类的关注度 游玩项目维度
guanzhu3=length(which(result$kmeansmod.cluster==3))


3.各维度的满意度指数


#第一类的满意度指数 可玩性程度。
manyi1=sum(na.omit(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==1)]))
#第二类的满意度指数 景点的秩序问题
manyi2=sum(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==4)])
 
#第三类的满意度指数 游玩项目维度
manyi3=sum(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==3)])


4.三张图:各维度关注度,各维度满意度,词云


colnames(manyi)=c("可玩性程度","景点的秩序问题","游玩项目维度")
barplot(manyi,ylab="满意度")

相关文章
|
4月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
81 3
|
5月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
5月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
6月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
6月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
6月前
|
数据可视化 数据挖掘 数据处理
R语言高级可视化技巧:使用Plotly与Shiny制作互动图表
【8月更文挑战第30天】通过使用`plotly`和`shiny`,我们可以轻松地创建高度互动的数据可视化图表。这不仅增强了图表的表现力,还提高了用户与数据的交互性,使得数据探索变得更加直观和高效。本文仅介绍了基本的使用方法,`plotly`和`shiny`还提供了更多高级功能和自定义选项,等待你去探索和发现。希望这篇文章能帮助你掌握使用`plotly`和`shiny`制作互动图表的技巧,并在你的数据分析和可视化工作中发挥更大的作用。
|
6月前
|
数据可视化
R语言可视化设计原则:打造吸引力十足的数据可视化
【8月更文挑战第30天】R语言可视化设计是一个综合性的过程,需要综合运用多个设计原则来创作出吸引力十足的作品。通过明确目标、选择合适的图表类型、合理运用色彩与视觉层次、明确标注与引导视线以及引入互动性与动态效果等原则的应用,你可以显著提升你的数据可视化作品的吸引力和实用性。希望本文能为你提供一些有益的启示和帮助。
|
6月前
|
数据可视化 数据挖掘 图形学
R语言基础可视化:使用ggplot2构建精美图形的探索
【8月更文挑战第29天】 `ggplot2`是R语言中一个非常强大的图形构建工具,它基于图形语法提供了一种灵活且直观的方式来创建各种统计图形。通过掌握`ggplot2`的基本用法和美化技巧,你可以轻松地将复杂的数据转化为直观易懂的图形,从而更好地理解和展示你的数据分析结果。希望本文能够为你探索`ggplot2`的世界提供一些帮助和启发。
|
6月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
110 3