R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

简介: R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

全文链接:http://tecdat.cn/?p=31048


2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"点击文末“阅读原文”获取完整代码数据


微博具有文本信息短(140字包括标点符号)、词量少、裂变式传播、传播速度快、用词不规范等特征,使原文本可视化研究技术框架中的聚类或分类方法提取热点话题变得困难。

R语言主要用于统计分析与数据可视化,大量新兴研究领域算法不断更新,在人工智能领域有广泛的应用,R语言亦可用相对简单地完成微博可视化工作。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个耐克微博聚类算法。本文利用R语言完成对微博相应分析。

所要分析的数据对象为耐克nike微博热搜话题数据,数据样式如下图所示:

A_}51GN]73HN~{10KWHCIKM.png

查看数据

B%CJ[7SAZ@70H@O}XO$%179.png

文本预处理

res=pinglun1[pinglun1!=" "];

相关视频


)FCY3N{A)2AGR{7B77VKZ(H.png

)FCY3N{A)2AGR{7B77VKZ(H.png

W%0~}[%@(2FEK]D%]268D{8.png

剔除通用标题

res=gsub(pattern="NIKEiD"," ",res);   
res=gsub(pattern="http://t.cn/"," ",res); 
res=gsub(pattern="com"," ",res); 
res=gsub(pattern="耐克"," ",res); 
res=gsub(pattern="官网"," ",res); 
res=gsub(pattern="中国"," ",res);

分词+频数统计

keyword=lapply(X=res, FUN=segmentCN)
words=unlist(keyword);

绘制词汇图

library("wordcloud")
mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系:
wordcloud(d$word,d$freq

{PV(JNBK{Z@3U81C4]0TI}X.png

 


点击标题查阅往期内容

MKXUJMI9O7N7I3N~Q{]4BND.png

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

左右滑动查看更多

01

S@R)Q`PB{[_XMZ5UKUW]D9F.png

02

{{B0VQ$T)$H2XIUGU5D_8_3.png

03

[SZATHXH$66%G{3`KP~1%TG.png

04

J%}BX}I{V$3A9RKB7N%BV3V.png



d2=data.frame(word=class2$word, freq=class2$freq);  
# 过滤掉1个字和词频小于100的记录

}[{P{M8)PNJ1~ZSJRV`1[EN.png

K均值聚类K-means

#创建聚类矩阵格式for(i in  1:nrow(cldata)){


  for(j in  unique(d$word) ){

   if(j %in%  unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1

 }

}



cl=kmeans(cldata,3)

聚类数据可视化

 

#cluster 1
y1=cldata[cldata$cluster==1,]
 
#cluster 2
 
y2=cldata[cldata$cluster==2,]
 
 #cluster 3
 
y3=cldata[cldata$cluster==3,]

1类词频云图

 

words=unlist(keyword[cl$cluster==1]);

(X3U9@I6JHNOV4YUO_V59O6.png

2类词频云图

 

words=unlist(keyword[cl$cluster==2]);

HO`DHU[9B{2@ZTCBBN~I}%N.png

3类词频云图

HI$H@YTI`2H[85VH96)@`ZD.png

相关文章
|
4天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
4天前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
4天前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
4天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
4天前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
4天前
|
存储 数据可视化 数据挖掘
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码1
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
4天前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
4天前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
4天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4天前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现

热门文章

最新文章