绘图系列|R-wordcloud2包绘制词云

2023-06-19 352

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 绘图系列|R-wordcloud2包绘制词云

本文首发于“生信补给站”公众号绘图系列|R-wordcloud2包绘制词云

前段时间读完大刘的流浪地球，本来想着写点东西... 结果“懒癌”了，今天就先弄个词云凑合吧( ╯□╰ )。

词云首先需要将下载好的“流浪地球”的文本文件读入R，然后使用jieba包对文本进行分词，然后绘制词云。

一数据准备

载入所需的R包，准备好流浪地球的txt格式的文本文件。

library(jiebaRD) 
library(jiebaR) 
library(wordcloud2)

二分词，统计词频

使用jieba包对文本进行分词。

engine = worker() 
segment("流浪地球.txt",engine)
data <- scan('流浪地球.segment.2019-04-09_22_36_54.txt',sep='\n',what='',encoding="UTF-8") 
data2 <- freq(data)
data2 <- qseg[data]
data.words <- data2
head(data.words)

三去掉停词

过滤掉类似“的”，“你”，“我们”等类似的无意义的停词，并可根据自己需要设置词频的个数。

#过滤掉1个字的词
data.words <- subset(data.words, nchar(as.character(data.words))>1) 
#过滤停词
stop=read.table(file=file.choose(),colClasses="character") 
stopwords=c(NULL) 
for(i in 1:dim(stop)[1]){ 
stopwords=c(stopwords,stop[i,1]) 
}
for(j in 1:length(stopwords)){ 
data.words <- subset(data.words,data.words!=stopwords[j]) 
}

四统计词频

4.1 统计词频

data.freq <- table(unlist(data.words)) 
data.freq <- rev(sort(data.freq)) 
data.freq <- data.frame(word=names(data.freq), freq=data.freq)

4.2 根据需要过滤频次

#按词频过滤词，过滤掉只出现过一次的词，这里可以根据需要调整过滤的词频数
data.freq=subset(data.freq, data.freq$freq.Freq>=2) 
head(data.freq)
   word freq.Var1 freq.Freq
1   地球      地球       164
2   太阳      太阳        95
3 发动机    发动机        60
4   人类      人类        35
5   地面      地面        30
6   木星      木星        28

五绘制词云

5.1 图形设定为“star”

wordcloud2(data.freq[,2:3],color = "random-light", backgroundColor = "grey",shape = 'star')

5.2 汉字图形展示

letterCloud(data.freq[,2:3],word="地球",size = 2)

5.3 指定图形

指定的背景图需要在R包的example文件夹中，本例为微信的开机图，然而不像，，，鬼知道咋回事啊。

world = system.file("examples/download1.jpg",package = "wordcloud2")
wordcloud2(data.freq[,2:3], figPath = world, size = 1,color = "black")

OK，词云绘制完毕。

你确定你不想看看你喜欢的书，杂志，都主要是说的些什么？

你确定你不想看看唐诗三百首，都主要是用的哪些词？

你确定你不想看看四六级，考研英语，都主要有哪些高频词汇，不是省了买本书？

你确定你不想看看各种影评，弹幕都是吐槽或者感概的啥？

绘图系列|R-wordcloud2包绘制词云

一数据准备

二分词，统计词频

三去掉停词

四统计词频

4.1 统计词频

4.2 根据需要过滤频次

五绘制词云

5.1 图形设定为“star”

5.2 汉字图形展示

5.3 指定图形

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

绘图系列|R-wordcloud2包绘制词云

一 数据准备

二 分词，统计词频

三 去掉停词

四 统计词频

4.1 统计词频

4.2 根据需要过滤频次

五 绘制词云

5.1 图形设定为“star”

5.2 汉字图形展示

5.3 指定图形

热门文章

最新文章

相关电子书

一数据准备

二分词，统计词频

三去掉停词

四统计词频

五绘制词云