令人称赞的 文本挖掘技术-阿里云开发者社区

开发者社区> 大数据> 正文
登录阅读全文

令人称赞的 文本挖掘技术

简介:

文本挖掘的艺术之一:

QQ聊天记录:中文聊天内容的挖掘

640_wx_fmt=png&tp=webp&wxfrom=5.webp

核心词云的制作:

640_wx_fmt=png&tp=webp&wxfrom=5.webp[6]

在用R做文本挖掘之前我们需要做一些前期的环境准备,

我们这里做分析的文本是tm包下面的一个示例文本, 例如:

第一步:设置文本路径:

setwd("C:\\Users\\aioger\\Documents\\R\\win-library\\3.2\\tm")

第二步:建立自己的语料库:

ovid <- VCorpus(DirSource(txt, encoding= "UTF-8"), readerControl = list(language = "en"))

640_wx_fmt=png&tp=webp&wxfrom=5.webp[8]

第三步:文档词项矩阵

dtm <- DocumentTermMatrix(reuters)

#词频关联查找:

findAssocs(dtm,"qui",0.3)

640_wx_fmt=png&tp=webp&wxfrom=5.webp[10]

第四:删除关联词频少的

dtm1<- removeSparseTerms(dtm,sparse=0.5)#这里是把关联性小于0.5的词给删掉

第五步:转正

data1<-t(t(dtm1))

data1<-as.matrix(data1)

data1<-t(data1)

对data1做中心化

data.scale <- scale(data1)

绘制聚类图

d <- dist(data.scale, method ="euclidean")

fit <- hclust(d,method="ward.D")

plot(fit,main ="文件聚类分析-王华")

640_wx_fmt=png&tp=webp&wxfrom=5.webp[12]

下面我们在来画出这个的词云图

v<-sort(rowSums(data1),decreasing=TRUE)

d<-data.frame(word=names(v),freq=v)

wordcloud(d$word,d$freq)

wordcloud(d$word,d$freq,scale = c(6, 1.5),min.freq = 2, max.words = 1000, colors = rainbow(100))

640_wx_fmt=png&tp=webp&wxfrom=5.webp[14]

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章