《Python数据挖掘:概念、方法与实践》——1.3节在数据挖掘中使用哪些技术

简介:

本节书摘来自华章社区《Python数据挖掘:概念、方法与实践》一书中的第1章,第1.3节在数据挖掘中使用哪些技术,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问云栖社区“华章社区”公众号查看

1.3 在数据挖掘中使用哪些技术
现在我们对数据挖掘在整个KDD或者数据科学过程中的位置有了了解,下面就可以开始讨论完成这一任务的细节了。
从试图定义数据挖掘的早期起,几类相关的问题就一再出现。Fayyad等人在1996年的另一篇重要论文“From Data Mining to Knowledge Discovery in Databases”中提出了6类问题,我们将其总结如下:
分类问题。这里,有需要根据某些特征分成预定义类别的数据。我们需要一种算法,使用过去已经分类的数据,学习如何将未知数据置于正确的类别下。
聚类问题。这类问题是,我们需要根据数据点的特征将其分为不同类别,但是事先不知道这些类别。我们需要一种能够计量数据点之间相似性并自动根据这些相似性分割数据的算法。
回归问题。我们的数据必须根据某个预测变量进行映射,所以必须学习进行这种映射的函数。
摘要问题。假定我们的数据需要以某种方式缩短或者总结。这可能很简单,只是从数据计算基本统计数字;也可能很复杂,需要学习如何总结文本,或者为文本找出一个主题模型。
依赖性建模问题。对于这些问题,我们的数据之间可能有某种联系,我们需要开发一个算法,计算这种联系的概率,或者描述互相联系的数据的结构。
变化和偏差检测问题。在另一种情况下,我们的数据已经有了显著的变化,或者数据的一些子集偏离了正常值。为了解决这些问题,我们需要一种能够自动发现这些问题的算法。
在同年撰写的另一篇论文中,这些作者还加入了其他几种类别:
链接分析问题。我们有一些相关的数据点,必须发现它们之间的关系,并以数据集的支持程度和关系置信度的方式描述它们。
序列分析问题。想象我们的数据点遵循某种顺序,如时间序列或者基因组,我们必须发现序列中的趋势或者偏差,或者发现导致序列的原因,以及序列的演化方式。
韩家炜、Kamber和裴健在前面提及的教科书中描述了数据挖掘所能解决的4类问题,并进一步将其分为描述性和预测性两大类。描述性数据挖掘意味着找出模式,帮助我们理解拥有的数据。预测性数据挖掘意味着找出模式,帮助我们预测尚未拥有的数据。
在描述性类别中,他们列出了如下数据挖掘问题:
数据特性描述和数据区分问题,包括数据摘要或者概念特性描述(或称描述)。
频率挖掘,包括找出数据中的频繁模式、关联规则和相关性。
在预测性类别中,他们列出了如下问题:
分类,回归
聚类
离群值和异常检测
很容易看出,Fayyad等人和韩家炜等人的问题列表有许多相似之处,只是项目的分组不同。确实,如果你过去曾经完成过数据挖掘项目,这两个列表上出现的项目就是你可能已经熟悉的数据挖掘问题。分类、回归和聚类是非常流行的基本数据挖掘技术,所以从业者们所看到的每本数据挖掘书籍几乎都介绍过它们。
本书将使用哪些技术
由于本书是关于“精通”数据挖掘的图书,因此我们将介绍几种在标准书籍中不常介绍的技术。具体地说,我们将在第2章中介绍关联规则,在第9章中介绍异常检测。我们还将应用几种对数据清理和数据预处理有帮助的数据挖掘技术,也就是第9章中的缺失值处理和第3章中通过实体匹配进行的一些数据整合。
除了从技术上定义数据挖掘之外,有时候人们还根据所挖掘的数据类型,划分各种数据挖掘问题。例如,你可能听人说过文本挖掘或者社交网络分析。这些术语指的是所挖掘的数据类型,而不是用于挖掘的具体技术。例如,文本挖掘指的是任何应用于文本文档的数据挖掘技术,而网络挖掘指的是从网络图表数据中寻找模式。在本书中,我们将在第4章中进行一些网络挖掘,在第6、7、8章中进行不同类型的文本文档摘要,在第5章中根据情绪(文本中的情感)进行文本分类。
如果你和我一样,现在可能会想,“对这些背景资料我受够了,我想要写点代码。”我很高兴你对实际项目感兴趣。本书几乎已经做好了开始编码的准备,但是首先要建立一个好的工作环境。

相关文章
|
6天前
|
移动开发 Python Windows
python编程获取网页标题title的几种方法及效果对比(源代码)
python编程获取网页标题title的几种方法及效果对比(源代码)
|
6天前
|
机器学习/深度学习 算法 数据可视化
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
特征工程是机器学习流程中的关键步骤,通过将原始数据转换为更具意义的特征,增强模型对数据关系的理解能力。本文重点介绍处理数值变量的高级特征工程技术,包括归一化、多项式特征、FunctionTransformer、KBinsDiscretizer、对数变换、PowerTransformer、QuantileTransformer和PCA,旨在提升模型性能。这些技术能够揭示数据中的潜在模式、优化变量表示,并应对数据分布和内在特性带来的挑战,从而提高模型的稳健性和泛化能力。每种技术都有其独特优势,适用于不同类型的数据和问题。通过实验和验证选择最适合的变换方法至关重要。
16 5
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
|
5天前
|
算法 数据挖掘 Python
Python中的拟合技术:揭示数据背后的模式
Python中的拟合技术:揭示数据背后的模式
14 0
Python中的拟合技术:揭示数据背后的模式
|
5天前
|
Python
Python中的异步编程与协程实践
【9月更文挑战第28天】本文旨在通过一个简单易懂的示例,介绍如何在Python中利用asyncio库实现异步编程和协程。我们将通过代码示例来展示如何编写高效的并发程序,并解释背后的原理。
|
3天前
|
开发者 Python
探索Python中的异步编程:从理论到实践
【9月更文挑战第29天】 在数字时代的洪流中,我们常常需要处理大量的数据和请求。传统的同步编程模式在某些情况下显得力不从心,而异步编程则提供了另一种解决方案。本文将通过浅显易懂的语言带你了解异步编程的概念,并通过Python语言的示例展示如何应用这一技术来提高程序的执行效率和响应速度。无论你是编程新手还是资深开发者,这篇文章都将为你打开一扇新窗,让你看到不一样的编程世界。
|
6天前
|
Python
python方法,传参20220101 计算与当前时间差
python方法,传参20220101 计算与当前时间差
|
7天前
|
缓存 开发者 Python
Python指定行号读取文件的方法
这种方法的优势在于它的效率和简便性,特别是当需要从同一文件中读取多行时。`linecache`会缓存文件,减少了重复读取的开销。
15 4
|
5天前
|
机器学习/深度学习 人工智能 数据挖掘
探索Python的奥秘:从基础到实践
本文深入探讨了Python编程语言的核心概念,从语法基础出发,逐步过渡到实际应用案例,旨在为读者提供一个全面而深入的Python学习视角。不同于传统教程,本文更注重于启发引导与实践结合,帮助读者在理解Python语言哲学的同时,能够将所学知识应用于实际项目中,实现从理论到实践的飞跃。
|
6天前
|
存储 Python
Python中类方法、实例方法与静态方法的区别
这三种方法的正确使用可以使代码更加清晰、组织良好并且易于理解,从而有效地支持软件开发的面向对象编程范式。
9 1
|
6天前
|
前端开发 JavaScript 安全
深入理解Python Web开发中的前后端分离与WebSocket实时通信技术
在现代Web开发中,前后端分离已成为主流架构,通过解耦前端(用户界面)与后端(服务逻辑),提升了开发效率和团队协作。前端使用Vue.js、React等框架与后端通过HTTP/HTTPS通信,而WebSocket则实现了低延迟的全双工实时通信。本文结合Python框架如Flask和Django,探讨了前后端分离与WebSocket的最佳实践,包括明确接口规范、安全性考虑、性能优化及错误处理等方面,助力构建高效、实时且安全的Web应用。
19 2
下一篇
无影云桌面