《R语言数据挖掘》----1.6 网络数据挖掘

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.6节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6 网络数据挖掘

网络挖掘的目的是从网络超链接结构、网页和使用数据来发现有用的信息或知识。网络是作为数据挖掘应用输入的最大数据源之一。

网络数据挖掘基于信息检索、机器学习(Machine Learning,ML)、统计学、模式识别和数据挖掘。尽管很多数据挖掘方法可以应用于网络挖掘,但是由于异构的、半结构化的和非结构化的网络数据,所以网络挖掘不单纯是一个数据挖掘问题。

网络挖掘任务至少可以定义为3种类型:
网络结构挖掘(web structure mining):这有助于从超链接中寻找有关网址和页面的有用信息或者有价值的结构总结。

网络内容挖掘(web content mining):这有助于从网页内容中挖掘有用的信息。

网络用法挖掘(web usage mining):这有助于从网络日志中发现用户访问模式,以便检测入侵、欺诈和试图闯入的情况。

应用于网络数据挖掘的算法源自经典的数据挖掘算法。它们有很多相似之处,比如挖掘过程,但也存在差异。网络数据挖掘的特征使其不同于数据挖掘的原因如下:
数据是非结构化的。

网络信息不断变化和数据量不断增长。

任何数据类型都可以在网络上得到,如结构化和非结构化数据。

网络上存在异构信息,冗余页面也存在。

网络上链接着海量信息。

数据是噪声数据。

网络数据挖掘不同于一般数据挖掘是由于源数据集的巨大动态容量、极其多样化的数据格式等。与网络相关的最流行的数据挖掘任务如下:
信息提取(Information Extraction,IE):信息提取的任务包含以下步骤:词汇标记、句子分割、词性分配、命名实体识别、短语解析、句子解析、语义解释、话语解释、模板填充以及合并。

自然语言处理(Natural Language Processing,NLP):它研究人与人和人与机器互动的语言特征、语言能力和行为模型、用这样的模型实现过程的框架、过程/模型的迭代优化以及对结果系统的评估技术。与网络数据挖掘相关的经典自然语言处理任务包括标注、知识表示、本体论模型等。

问题回答(question answering):目标就是以自然语言形式从文本集中寻找问题的答案。它可以归类为槽填充、有限域以及具有更高难度的开放域。一个简单的例子就是基于预先定义的常见问题解答(FAQ)来回答客户的询问。

资源发现(resource discovery):比较流行的应用是优先收集重要的页面;使用链路拓扑结构、主题局部性和主题爬行进行相似性搜索;社区发现。

相关文章
|
5天前
|
监控 Linux PHP
【02】客户端服务端C语言-go语言-web端PHP语言整合内容发布-优雅草网络设备监控系统-2月12日优雅草简化Centos stream8安装zabbix7教程-本搭建教程非docker搭建教程-优雅草solution
【02】客户端服务端C语言-go语言-web端PHP语言整合内容发布-优雅草网络设备监控系统-2月12日优雅草简化Centos stream8安装zabbix7教程-本搭建教程非docker搭建教程-优雅草solution
54 20
|
11天前
|
监控 关系型数据库 MySQL
【01】客户端服务端C语言-go语言-web端PHP语言整合内容发布-优雅草网络设备监控系统-硬件设备实时监控系统运营版发布-本产品基于企业级开源项目Zabbix深度二开-分步骤实现预计10篇合集-自营版
【01】客户端服务端C语言-go语言-web端PHP语言整合内容发布-优雅草网络设备监控系统-硬件设备实时监控系统运营版发布-本产品基于企业级开源项目Zabbix深度二开-分步骤实现预计10篇合集-自营版
20 0
|
2月前
|
数据采集 监控 安全
公司网络监控软件:Zig 语言底层优化保障系统高性能运行
在数字化时代,Zig 语言凭借出色的底层控制能力和高性能特性,为公司网络监控软件的优化提供了有力支持。从数据采集、连接管理到数据分析,Zig 语言确保系统高效稳定运行,精准处理海量网络数据,保障企业信息安全与业务连续性。
65 4
|
2月前
|
Go 数据安全/隐私保护 UED
优化Go语言中的网络连接:设置代理超时参数
优化Go语言中的网络连接:设置代理超时参数
|
3月前
|
数据库连接 Go 数据库
Go语言中的错误注入与防御编程。错误注入通过模拟网络故障、数据库错误等,测试系统稳定性
本文探讨了Go语言中的错误注入与防御编程。错误注入通过模拟网络故障、数据库错误等,测试系统稳定性;防御编程则强调在编码时考虑各种错误情况,确保程序健壮性。文章详细介绍了这两种技术在Go语言中的实现方法及其重要性,旨在提升软件质量和可靠性。
57 1
|
3月前
|
网络协议 安全 Go
Go语言进行网络编程可以通过**使用TCP/IP协议栈、并发模型、HTTP协议等**方式
【10月更文挑战第28天】Go语言进行网络编程可以通过**使用TCP/IP协议栈、并发模型、HTTP协议等**方式
90 13
|
3月前
|
网络协议 安全 Go
Go语言的网络编程基础
【10月更文挑战第28天】Go语言的网络编程基础
82 8
|
3月前
|
安全 网络协议 Go
Go语言网络编程
【10月更文挑战第28天】Go语言网络编程
144 65
|
3月前
|
网络协议 Go
Go语言网络编程的实例
【10月更文挑战第27天】Go语言网络编程的实例
45 7
|
3月前
|
缓存 网络协议 Unix
Go语言网络编程技巧
【10月更文挑战第27天】Go语言网络编程技巧
52 8

热门文章

最新文章