开发者社区> 华章计算机> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

《R语言数据挖掘》----1.6 网络数据挖掘

简介:
+关注继续查看

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.6节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6 网络数据挖掘

网络挖掘的目的是从网络超链接结构、网页和使用数据来发现有用的信息或知识。网络是作为数据挖掘应用输入的最大数据源之一。

网络数据挖掘基于信息检索、机器学习(Machine Learning,ML)、统计学、模式识别和数据挖掘。尽管很多数据挖掘方法可以应用于网络挖掘,但是由于异构的、半结构化的和非结构化的网络数据,所以网络挖掘不单纯是一个数据挖掘问题。

网络挖掘任务至少可以定义为3种类型:
网络结构挖掘(web structure mining):这有助于从超链接中寻找有关网址和页面的有用信息或者有价值的结构总结。

网络内容挖掘(web content mining):这有助于从网页内容中挖掘有用的信息。

网络用法挖掘(web usage mining):这有助于从网络日志中发现用户访问模式,以便检测入侵、欺诈和试图闯入的情况。

应用于网络数据挖掘的算法源自经典的数据挖掘算法。它们有很多相似之处,比如挖掘过程,但也存在差异。网络数据挖掘的特征使其不同于数据挖掘的原因如下:
数据是非结构化的。

网络信息不断变化和数据量不断增长。

任何数据类型都可以在网络上得到,如结构化和非结构化数据。

网络上存在异构信息,冗余页面也存在。

网络上链接着海量信息。

数据是噪声数据。

网络数据挖掘不同于一般数据挖掘是由于源数据集的巨大动态容量、极其多样化的数据格式等。与网络相关的最流行的数据挖掘任务如下:
信息提取(Information Extraction,IE):信息提取的任务包含以下步骤:词汇标记、句子分割、词性分配、命名实体识别、短语解析、句子解析、语义解释、话语解释、模板填充以及合并。

自然语言处理(Natural Language Processing,NLP):它研究人与人和人与机器互动的语言特征、语言能力和行为模型、用这样的模型实现过程的框架、过程/模型的迭代优化以及对结果系统的评估技术。与网络数据挖掘相关的经典自然语言处理任务包括标注、知识表示、本体论模型等。

问题回答(question answering):目标就是以自然语言形式从文本集中寻找问题的答案。它可以归类为槽填充、有限域以及具有更高难度的开放域。一个简单的例子就是基于预先定义的常见问题解答(FAQ)来回答客户的询问。

资源发现(resource discovery):比较流行的应用是优先收集重要的页面;使用链路拓扑结构、主题局部性和主题爬行进行相似性搜索;社区发现。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
10057
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载