令人称赞的 文本挖掘技术

简介:

文本挖掘的艺术之一:

QQ聊天记录:中文聊天内容的挖掘

640_wx_fmt=png&tp=webp&wxfrom=5.webp

核心词云的制作:

640_wx_fmt=png&tp=webp&wxfrom=5.webp[6]

在用R做文本挖掘之前我们需要做一些前期的环境准备,

我们这里做分析的文本是tm包下面的一个示例文本, 例如:

第一步:设置文本路径:

setwd("C:\\Users\\aioger\\Documents\\R\\win-library\\3.2\\tm")

第二步:建立自己的语料库:

ovid <- VCorpus(DirSource(txt, encoding= "UTF-8"), readerControl = list(language = "en"))

640_wx_fmt=png&tp=webp&wxfrom=5.webp[8]

第三步:文档词项矩阵

dtm <- DocumentTermMatrix(reuters)

#词频关联查找:

findAssocs(dtm,"qui",0.3)

640_wx_fmt=png&tp=webp&wxfrom=5.webp[10]

第四:删除关联词频少的

dtm1<- removeSparseTerms(dtm,sparse=0.5)#这里是把关联性小于0.5的词给删掉

第五步:转正

data1<-t(t(dtm1))

data1<-as.matrix(data1)

data1<-t(data1)

对data1做中心化

data.scale <- scale(data1)

绘制聚类图

d <- dist(data.scale, method ="euclidean")

fit <- hclust(d,method="ward.D")

plot(fit,main ="文件聚类分析-王华")

640_wx_fmt=png&tp=webp&wxfrom=5.webp[12]

下面我们在来画出这个的词云图

v<-sort(rowSums(data1),decreasing=TRUE)

d<-data.frame(word=names(v),freq=v)

wordcloud(d$word,d$freq)

wordcloud(d$word,d$freq,scale = c(6, 1.5),min.freq = 2, max.words = 1000, colors = rainbow(100))

640_wx_fmt=png&tp=webp&wxfrom=5.webp[14]

目录
相关文章
|
4月前
|
机器学习/深度学习 算法 Python
**《惊世发现!揭开机器学习 k-近邻算法测试的神秘面纱,震撼你的认知边界!》**
【8月更文挑战第16天】k-近邻算法(kNN)是机器学习中一种直观且有效的分类与回归方法。它基于距离度量,对新样本找到训练集中最近的k个邻居并根据多数表决预测类别。通过示例展示了如何使用Python和`sklearn`库实现kNN,并采用交叉验证优化k值以提高模型的稳定性和准确性。充分测试kNN有助于在实际问题中发挥其最大效能。
35 1
|
7月前
|
机器学习/深度学习 运维 算法
机器学习的魔法(三)解析无监督学习的黑科技,揭秘新闻话题背后的神奇算法
机器学习的魔法(三)解析无监督学习的黑科技,揭秘新闻话题背后的神奇算法
|
机器学习/深度学习 人工智能 安全
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
334 0
|
机器学习/深度学习 人工智能 自然语言处理
《花雕学AI》21:脑筋急转弯---ChatGPT能够灵活运用逻辑推理和创造性思维吗?
随着人工智能技术的不断发展和成熟,ChatGPT在未来还有很大的应用前景。例如,在教育领域,ChatGPT可以被应用于编写智力游戏、脑力训练等课程内容,从而帮助学生提高思维能力和语言表达能力。同时,在娱乐行业,ChatGPT也可以被用于开发各种趣味游戏,满足人们的娱乐需求。 然而,我们也必须承认,ChatGPT在解决脑筋急转弯问题上仍存在一些挑战和限制。例如,在处理一些复杂的双关语和玩味语言时,模型的效果可能会受到影响,需要不断地优化和改进。
389 0
《花雕学AI》21:脑筋急转弯---ChatGPT能够灵活运用逻辑推理和创造性思维吗?
ChatGPT - 生成新的想法并克服写作的障碍
ChatGPT - 生成新的想法并克服写作的障碍
110 0
|
人工智能 安全 机器人
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
134 0
|
机器学习/深度学习 人工智能 算法
深度学习怎么入门?一文弄清楚最常见的专业词汇
深度学习怎么入门?一文弄清楚最常见的专业词汇
166 0
深度学习怎么入门?一文弄清楚最常见的专业词汇
|
机器学习/深度学习 人工智能 语音技术
Facebook创造了两个会交流的神经网络来描述颜色,竟和人类语言惊人相似
你想过你是如何描述一个颜色的吗?最新研究表明人类使用离散符号来记录一个区域的颜色,在细化颜色过程中又增添其他信息。这背后有什么道理吗?Facebook用两个神经网络的实验现象告诉你。
124 0
Facebook创造了两个会交流的神经网络来描述颜色,竟和人类语言惊人相似
|
机器学习/深度学习 自然语言处理 算法
做了 5 年机器学习研究,我发现了这 7 个真相
在Mindsdb从事 3 年自动机器学习工作后,我辞职了,至少我不会在短时间内从事任何与机器学习相关的职业工作。掐指一算,我已经做了 5 年机器学习研究,但直到今天,我才终于搞清楚了很多自己之前不知道的事物,甚至我还可能觉察到一些别人不知道的东西。
175 0
|
机器学习/深度学习 人工智能 自然语言处理
在语音识别这件事上,汉语比英语早一年超越人类水平(附论文)
几天前,微软语音识别实现了历史性突破,英语的语音转录达到专业速录员水平,机器之心也独家专访了专访微软首席语音科学家黄学东 ,了解到词错率仅 5.9% 背后的「秘密武器」——CNTK。但微软的成果是在英语水平上的,从部分读者留言中我们了解到对汉语语音识别的前沿成果不太了解,这篇文章将向大家介绍国内几家公司在汉语识别上取得的成果。
377 0
在语音识别这件事上,汉语比英语早一年超越人类水平(附论文)