令人称赞的 文本挖掘技术

简介:

文本挖掘的艺术之一:

QQ聊天记录:中文聊天内容的挖掘

640_wx_fmt=png&tp=webp&wxfrom=5.webp

核心词云的制作:

640_wx_fmt=png&tp=webp&wxfrom=5.webp[6]

在用R做文本挖掘之前我们需要做一些前期的环境准备,

我们这里做分析的文本是tm包下面的一个示例文本, 例如:

第一步:设置文本路径:

setwd("C:\\Users\\aioger\\Documents\\R\\win-library\\3.2\\tm")

第二步:建立自己的语料库:

ovid <- VCorpus(DirSource(txt, encoding= "UTF-8"), readerControl = list(language = "en"))

640_wx_fmt=png&tp=webp&wxfrom=5.webp[8]

第三步:文档词项矩阵

dtm <- DocumentTermMatrix(reuters)

#词频关联查找:

findAssocs(dtm,"qui",0.3)

640_wx_fmt=png&tp=webp&wxfrom=5.webp[10]

第四:删除关联词频少的

dtm1<- removeSparseTerms(dtm,sparse=0.5)#这里是把关联性小于0.5的词给删掉

第五步:转正

data1<-t(t(dtm1))

data1<-as.matrix(data1)

data1<-t(data1)

对data1做中心化

data.scale <- scale(data1)

绘制聚类图

d <- dist(data.scale, method ="euclidean")

fit <- hclust(d,method="ward.D")

plot(fit,main ="文件聚类分析-王华")

640_wx_fmt=png&tp=webp&wxfrom=5.webp[12]

下面我们在来画出这个的词云图

v<-sort(rowSums(data1),decreasing=TRUE)

d<-data.frame(word=names(v),freq=v)

wordcloud(d$word,d$freq)

wordcloud(d$word,d$freq,scale = c(6, 1.5),min.freq = 2, max.words = 1000, colors = rainbow(100))

640_wx_fmt=png&tp=webp&wxfrom=5.webp[14]

目录
相关文章
|
1月前
|
人工智能 自然语言处理 UED
微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
【2月更文挑战第17天】微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
40 2
微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
|
1月前
|
机器学习/深度学习 运维 算法
机器学习的魔法(三)解析无监督学习的黑科技,揭秘新闻话题背后的神奇算法
机器学习的魔法(三)解析无监督学习的黑科技,揭秘新闻话题背后的神奇算法
|
6月前
|
机器学习/深度学习 自然语言处理 数据处理
ChatGPT 爆火背后的大语言模型到底是什么?
ChatGPT 爆火背后的大语言模型到底是什么?
77 0
|
10月前
|
人工智能 NoSQL Shell
AI(chatGPT)有时也故意误导人类,不能全信
AI(chatGPT)有时也故意误导人类,不能全信
|
11月前
|
机器学习/深度学习
AIGC背后的技术分析 | 机器学习背后的微分入门
用更简单的方法帮助你理解感知器。
89 0
AIGC背后的技术分析 |  机器学习背后的微分入门
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT成功背后的技术原因及其对生命科学领域的启发
ChatGPT成功背后的技术原因及其对生命科学领域的启发
|
11月前
|
机器学习/深度学习 算法 数据挖掘
AIGC背后的技术分析 | 强化学习
PyTorch是当前主流深度学习框架之一,其设计追求最少的封装、最直观的设计,其简洁优美的特性使得PyTorch代码更易理解,对新手非常友好。 本文主要介绍深度学习领域中强化学习部分。
210 0
AIGC背后的技术分析 | 强化学习
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT大解密:带您探讨机器学习背后的秘密、利用与发展
这篇文章,将带着各位认识机器学习,以及带着各位解密 ChatGPT 的背后究竟是以什么原理运作、能够有什么利用的方式或用途。 此外,也会带各位认识ChatGPT与其他相关技术的区别、未来的影响,甚至可能会面临的机遇与挑战。
223 0
|
机器学习/深度学习 人工智能 自然语言处理
《花雕学AI》21:脑筋急转弯---ChatGPT能够灵活运用逻辑推理和创造性思维吗?
随着人工智能技术的不断发展和成熟,ChatGPT在未来还有很大的应用前景。例如,在教育领域,ChatGPT可以被应用于编写智力游戏、脑力训练等课程内容,从而帮助学生提高思维能力和语言表达能力。同时,在娱乐行业,ChatGPT也可以被用于开发各种趣味游戏,满足人们的娱乐需求。 然而,我们也必须承认,ChatGPT在解决脑筋急转弯问题上仍存在一些挑战和限制。例如,在处理一些复杂的双关语和玩味语言时,模型的效果可能会受到影响,需要不断地优化和改进。
318 0
《花雕学AI》21:脑筋急转弯---ChatGPT能够灵活运用逻辑推理和创造性思维吗?
|
机器学习/深度学习 自然语言处理 达摩院
【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类
ModelScope上开源了达摩院众多业界最强多模态模型,其中就有首超人类的多模态视觉问答模型mPLUG,小编从页面体验(一探)、开发体验(二探)、开放测试(三探)来探究多模态预训练模型能力。
24173 8
【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类