《数据挖掘:实用案例分析》——2.2 聚类

简介: 本节书摘来自华章计算机《数据挖掘:实用案例分析》一书中的第2章,第2.2节,作者 张良均 陈俊德 刘名军 陈荣,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 聚类

  我们经常会碰到这样的问题:

  1)如何通过一些特定的症状归纳某类特定的疾病?
  2)谁是银行信用卡的黄金客户?
  3)谁喜欢打国际长途,在什么时间,打到哪里?
  4)对住宅区进行聚类,确定自动提款机ATM的安放位置。
  5)如何对用户WAP上网行为进行分析,通过客户分群进行精确营销?

  除此之外,促销应该针对哪一类客户,这类客户具有哪些特征?这类问题往往是在促销前首要解决的问题,对整个客户做分群,将客户分组在各自的群组里,然后对每个不同的群组,采取不同的营销策略。这些都是聚类分析的例子。

2.2.1 聚类分析建模原理

  聚类(Clustering)分析:是在没有给定划分类的情况下,根据信息相似度进行信息聚类的一种方法,因此聚类又称为无指导的学习。

  与分类不同,分类需要先定义类别和训练样本,是有指导的学习。聚类就是将数据划分或分割成相交或者不相交的群组的过程,通过确定数据之间在预先指定的属性上的相似性,就可以完成聚类任务。

  聚类的输入是一组未被标记的数据,根据数据自身的距离或相似度进行划分。划分的原则是保持最大的组内相似性和最小的组间相似性,也就是使不同聚类中的数据尽可能地不同,而同一聚类中的数据尽可能地相似。比如根据股票价格的波动情况,可以将股票分成不同的类,总共可以分成几类,各类包含哪些股票,每一类的特征是什么,这对投资者,尤其对投资基金的人来说,可能是很重要的信息。当然,聚类除了将样本分类外,还可以完成孤立点挖掘,如将其应用于网络入侵检测或金融风险欺诈探测中。聚类分析建模原理如图2-5所示。

image

2.2.2 聚类算法

  常用聚类算法分类见表2-2。

image

相关文章
|
6月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
149 0
|
4月前
|
搜索推荐 数据挖掘 UED
分享一些利用商品详情数据挖掘潜在需求的成功案例
本文介绍了四个成功利用商品详情数据挖掘潜在需求的案例:亚马逊通过个性化推荐系统提升销售额;小米通过精准挖掘用户需求优化智能硬件生态链;星巴克推出定制化饮品服务满足用户多样化口味;美妆品牌利用数据改进产品配方和设计,制定针对性营销策略。这些案例展示了数据挖掘在提升用户体验和商业价值方面的巨大潜力。
|
6月前
|
数据采集 资源调度 算法
【数据挖掘】十大算法之K-Means K均值聚类算法
K-Means聚类算法的基本介绍,包括算法步骤、损失函数、优缺点分析以及如何优化和改进算法的方法,还提到了几种改进的K-Means算法,如K-Means++和ISODATA算法。
323 4
|
6月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
594 0
|
6月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
109 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
6月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
104 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
6月前
|
存储 数据可视化 数据挖掘
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。
104 1
|
6月前
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。
142 0
|
6月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
117 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】PCA 主成分分析算法过程及原理讲解
主成分分析(PCA)的原理和算法过程。
208 0

热门文章

最新文章