《数据挖掘:实用案例分析》——第2章 数据挖掘的应用分类 2.1 分类与回归

简介: 本节书摘来自华章计算机《数据挖掘:实用案例分析》一书中的第2章,第2.1节,作者 张良均 陈俊德 刘名军 陈荣,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章 数据挖掘的应用分类

  由于数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益,这使得数据挖掘技术越来越普及。如在销售数据中发掘顾客的消费习惯,并可从交易记录中找出顾客偏好的产品组合,其他包括找出流失顾客的特征与推出新产品的时机点等都是零售业常见的实例;利用数据挖掘分析顾客群的消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化营销的目的;制造业对数据挖掘的需求多运用在品质控管方面,从制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。

  近几年,电话公司、信用卡公司、保险公司以及股票交易商对诈欺行为的侦测都很有兴趣,这些行业每年因为诈欺行为而遭受的损失都非常巨大,数据挖掘可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。金融业可以利用数据挖掘来分析市场动向,并预测个别公司的营运以及股价走向。数据挖掘的另一个独特的用法是在医疗业,用来预测手术、用药、诊断或是流程控制的效率。

  归纳起来,数据挖掘技术的基本任务主要体现在分类与回归、聚类、关联规则、时序模式、偏差检测五个方面。图21是典型的数据挖掘应用场景。

image

2.1 分类与回归

  我们经常会碰到这样的问题:

  1)如何将信用卡申请人分为低、中、高风险群?

  2)如何预测哪些顾客在未来半年内会取消该公司服务,哪些电话用户会申请增值服务?

  3)如何预测银行可以安全地贷给贷款人的贷款量?

  4)哪些使用2G通信网络的手机用户有可能转换到3G通信网络?

  5)如何有效预测房地产开发中存在的风险?

  除此之外,市场经理需要进行数据分析,以便帮助他预测具有某些特征的顾客会购买一台新的计算机;医学研究者希望分析乳腺癌数据,预测病人应当接受三种具体治疗方案的哪一种;这些都是分类与回归的例子。

2.1.1 分类与回归建模原理

  分类(Classification):指将数据映射到预先定义好的群组或类。

  因为在分析测试数据之前,类别就已经确定了,所以分类通常被称为有监督的学习。分类算法要求基于数据属性值来定义类别,通常通过已知所属类别的数据的特征来描述类别。

  分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上。该过程由两步构成。

image

  其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出,图2-2就是一个三分类问题。

image

  回归(Regression):用属性的历史数据预测未来趋势。

  回归首先假设一些已知类型的函数(例如线性函数、Logistic函数等)可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数,图2-3就是一个非线性回归问题。

  回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。在这种观点下,分类和回归都是预测问题。但数据挖掘业界普遍认为:用预测法预测类标号为分类,预测连续值(例如使用回归方法)为预测。许多问题可以用线性回归解决,许多非线性问题可以通过对变量进行变化,从而转换为线性问题来解决。分类与回归建模原理如图2-4所示。

image

image

2.1.2 分类与回归算法

  分类与回归常用算法见表2-1。

image
image

相关文章
|
3月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
3月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
71 0
|
30天前
|
搜索推荐 数据挖掘 UED
分享一些利用商品详情数据挖掘潜在需求的成功案例
本文介绍了四个成功利用商品详情数据挖掘潜在需求的案例:亚马逊通过个性化推荐系统提升销售额;小米通过精准挖掘用户需求优化智能硬件生态链;星巴克推出定制化饮品服务满足用户多样化口味;美妆品牌利用数据改进产品配方和设计,制定针对性营销策略。这些案例展示了数据挖掘在提升用户体验和商业价值方面的巨大潜力。
|
3月前
|
自然语言处理 数据可视化 安全
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,涉及疫情背景下周边游需求图谱分析,包括微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析,以及疫情前后旅游产品需求变化分析的Python实现方法。
119 1
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
|
3月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
159 0
|
3月前
|
数据挖掘 调度 Python
【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 Baseline
第十届“泰迪杯”数据挖掘挑战赛B题的基线解决方案,涉及电力系统负荷预测分析,包括数据读取、特征处理、模型训练和评估,以及使用了LightGBM进行回归预测。
112 3
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
62 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
74 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
3月前
|
存储 数据可视化 数据挖掘
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。
67 1
|
3月前
|
存储 自然语言处理 算法
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题二方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于疫情背景下的周边游需求图谱分析,具体针对问题二“周边游产品热度分析”,介绍了从OTA和UGC数据中提取旅游产品、计算产品热度得分、判断产品类型的方法,并给出了Python实现步骤和代码。
78 1

热门文章

最新文章