《Python数据挖掘:概念、方法与实践》——1.3节在数据挖掘中使用哪些技术

简介:

本节书摘来自华章社区《Python数据挖掘:概念、方法与实践》一书中的第1章,第1.3节在数据挖掘中使用哪些技术,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问云栖社区“华章社区”公众号查看

1.3 在数据挖掘中使用哪些技术
现在我们对数据挖掘在整个KDD或者数据科学过程中的位置有了了解,下面就可以开始讨论完成这一任务的细节了。
从试图定义数据挖掘的早期起,几类相关的问题就一再出现。Fayyad等人在1996年的另一篇重要论文“From Data Mining to Knowledge Discovery in Databases”中提出了6类问题,我们将其总结如下:
分类问题。这里,有需要根据某些特征分成预定义类别的数据。我们需要一种算法,使用过去已经分类的数据,学习如何将未知数据置于正确的类别下。
聚类问题。这类问题是,我们需要根据数据点的特征将其分为不同类别,但是事先不知道这些类别。我们需要一种能够计量数据点之间相似性并自动根据这些相似性分割数据的算法。
回归问题。我们的数据必须根据某个预测变量进行映射,所以必须学习进行这种映射的函数。
摘要问题。假定我们的数据需要以某种方式缩短或者总结。这可能很简单,只是从数据计算基本统计数字;也可能很复杂,需要学习如何总结文本,或者为文本找出一个主题模型。
依赖性建模问题。对于这些问题,我们的数据之间可能有某种联系,我们需要开发一个算法,计算这种联系的概率,或者描述互相联系的数据的结构。
变化和偏差检测问题。在另一种情况下,我们的数据已经有了显著的变化,或者数据的一些子集偏离了正常值。为了解决这些问题,我们需要一种能够自动发现这些问题的算法。
在同年撰写的另一篇论文中,这些作者还加入了其他几种类别:
链接分析问题。我们有一些相关的数据点,必须发现它们之间的关系,并以数据集的支持程度和关系置信度的方式描述它们。
序列分析问题。想象我们的数据点遵循某种顺序,如时间序列或者基因组,我们必须发现序列中的趋势或者偏差,或者发现导致序列的原因,以及序列的演化方式。
韩家炜、Kamber和裴健在前面提及的教科书中描述了数据挖掘所能解决的4类问题,并进一步将其分为描述性和预测性两大类。描述性数据挖掘意味着找出模式,帮助我们理解拥有的数据。预测性数据挖掘意味着找出模式,帮助我们预测尚未拥有的数据。
在描述性类别中,他们列出了如下数据挖掘问题:
数据特性描述和数据区分问题,包括数据摘要或者概念特性描述(或称描述)。
频率挖掘,包括找出数据中的频繁模式、关联规则和相关性。
在预测性类别中,他们列出了如下问题:
分类,回归
聚类
离群值和异常检测
很容易看出,Fayyad等人和韩家炜等人的问题列表有许多相似之处,只是项目的分组不同。确实,如果你过去曾经完成过数据挖掘项目,这两个列表上出现的项目就是你可能已经熟悉的数据挖掘问题。分类、回归和聚类是非常流行的基本数据挖掘技术,所以从业者们所看到的每本数据挖掘书籍几乎都介绍过它们。
本书将使用哪些技术
由于本书是关于“精通”数据挖掘的图书,因此我们将介绍几种在标准书籍中不常介绍的技术。具体地说,我们将在第2章中介绍关联规则,在第9章中介绍异常检测。我们还将应用几种对数据清理和数据预处理有帮助的数据挖掘技术,也就是第9章中的缺失值处理和第3章中通过实体匹配进行的一些数据整合。
除了从技术上定义数据挖掘之外,有时候人们还根据所挖掘的数据类型,划分各种数据挖掘问题。例如,你可能听人说过文本挖掘或者社交网络分析。这些术语指的是所挖掘的数据类型,而不是用于挖掘的具体技术。例如,文本挖掘指的是任何应用于文本文档的数据挖掘技术,而网络挖掘指的是从网络图表数据中寻找模式。在本书中,我们将在第4章中进行一些网络挖掘,在第6、7、8章中进行不同类型的文本文档摘要,在第5章中根据情绪(文本中的情感)进行文本分类。
如果你和我一样,现在可能会想,“对这些背景资料我受够了,我想要写点代码。”我很高兴你对实际项目感兴趣。本书几乎已经做好了开始编码的准备,但是首先要建立一个好的工作环境。

相关文章
|
25天前
|
JavaScript 前端开发 Android开发
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
73 13
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
1月前
|
JSON 数据可视化 API
Python 中调用 DeepSeek-R1 API的方法介绍,图文教程
本教程详细介绍了如何使用 Python 调用 DeepSeek 的 R1 大模型 API,适合编程新手。首先登录 DeepSeek 控制台获取 API Key,安装 Python 和 requests 库后,编写基础调用代码并运行。文末包含常见问题解答和更简单的可视化调用方法,建议收藏备用。 原文链接:[如何使用 Python 调用 DeepSeek-R1 API?](https://apifox.com/apiskills/how-to-call-the-deepseek-r1-api-using-python/)
|
2月前
|
API Python
【02】优雅草央央逆向技术篇之逆向接口协议篇-以小红书为例-python逆向小红书将用户名转换获得为uid-优雅草央千澈
【02】优雅草央央逆向技术篇之逆向接口协议篇-以小红书为例-python逆向小红书将用户名转换获得为uid-优雅草央千澈
133 1
|
23天前
|
数据采集 JSON 测试技术
如何在Python中高效实现CSV到JSON的数据转换
在实际项目中,数据格式转换是常见问题,尤其从CSV到JSON的转换。本文深入探讨了多种转换方法,涵盖Python基础实现、数据预处理、错误处理、性能优化及调试验证技巧。通过分块处理、并行处理等手段提升大文件转换效率,并介绍如何封装为命令行工具或Web API,实现自动化批量处理。关键点包括基础实现、数据清洗、异常捕获、性能优化和单元测试,确保转换流程稳定高效。
144 83
|
12天前
|
JSON API 数据格式
Python 请求微店商品详情数据 API 接口
微店开放平台允许开发者通过API获取商品详情数据。使用Python请求微店商品详情API的主要步骤包括:1. 注册并申请API权限,获得app_key和app_secret;2. 确定API接口地址与请求参数,如商品ID;3. 生成签名确保请求安全合法;4. 使用requests库发送HTTP请求获取数据;5. 处理返回的JSON格式响应数据。开发时需严格遵循微店API文档要求。
|
1月前
|
JavaScript 搜索推荐 Android开发
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
65 8
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
|
8天前
|
数据采集 XML 存储
Python爬虫实战:一键采集电商数据,掌握市场动态!
这个爬虫还挺实用,不光能爬电商数据,改改解析规则,啥数据都能爬。写爬虫最重要的是要有耐心,遇到问题别着急,慢慢调试就成。代码写好了,运行起来那叫一个爽,分分钟几千条数据到手。
|
1月前
|
数据采集 JavaScript Android开发
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
54 7
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
1月前
|
数据采集 数据安全/隐私保护 Python
从零开始:用Python爬取网站的汽车品牌和价格数据
在现代化办公室中,工程师小李和产品经理小张讨论如何获取懂车帝网站的汽车品牌和价格数据。小李提出使用Python编写爬虫,并通过亿牛云爬虫代理避免被封禁。代码实现包括设置代理、请求头、解析网页内容、多线程爬取等步骤,确保高效且稳定地抓取数据。小张表示理解并准备按照指导操作。
从零开始:用Python爬取网站的汽车品牌和价格数据
|
6天前
|
数据采集 Web App开发 API
B站高清视频爬取:Python爬虫技术详解
B站高清视频爬取:Python爬虫技术详解

热门文章

最新文章