factoextra包 聚类分析(2)

简介: 聚类分析是一种数据贵呀技术,旨在揭露数据集中观测值的子集。它可以把大量的观测值归为若干个类。这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间的相似度高。

聚类分析是一种数据贵呀技术,旨在揭露数据集中观测值的子集。它可以把大量的观测值归为若干个类。这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间的相似度高。这不是一个精确的定义,从而导致了各种聚类方法的出现。

最常用的两种聚类方法是层次聚类(hierarchical agglomerative clustering)和划分聚类(partitioning clustering)。在层次聚类中,每一个观测值自成一类,这些类两两合并,直到所有的类被聚成一类为止。在划分聚类中,首先定义指定类的个数K,然后观测值被随机分成K类,再重新形成聚合的类

聚类分析的一般步骤:
⑴选择合适的变量
⑵缩放数据
⑶寻找异常点
⑷计算距离:最常用的距离量度是欧几里得距离
⑸选择聚类算法
⑹获得一种或者多种聚类方法
⑺确定类的数目
⑻获得最终的聚类解决方案
⑼结果可视化
⑽解读类
⑾验证结果:如果采用不同的聚类方法或者不同的样本是否产生相同的类/fpc,clv和clvalid包含了评估聚类解的稳定性的函数

  • kmeans聚类分析


    img_c745cabe25e4e4251aa0b2c62d8c6a7f.png
img_ca9bf80fe6127143b02d52de7fb5d2ec.png
  • 层次性聚类分析


    img_6b9579da8f5134caf00659f539af6eb1.png
img_e612acbe8e65611d86cd2649ed45a0ad.png
  • 选择最佳的聚类个数


    img_4ab57c36c27ce01f5c42a7bb0bf3438b.png
img_f640ad5f1e1728a8ba7299a4bd0ce885.png

相关资料;
factoextra 主成分分析(1) - 简书
https://www.jianshu.com/p/9226b777ae86
无监督学习 聚类分析① - 简书
https://www.jianshu.com/p/921aa71afdf8
无监督学习 聚类分析② - 简书
https://www.jianshu.com/p/514d771c243e
无监督学习 聚类分析③ - 简书
https://www.jianshu.com/p/b8dcfc7c1d4c
无监督学习 聚类分析④ - 简书
https://www.jianshu.com/p/e9ba1f5f5ae7

目录
相关文章
|
10月前
|
API 数据库 决策智能
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 智能工具调用决策的智能体
本文介绍了一种基于阿里云百炼平台的`qwen-max` API构建的智能体方案,该方案集成了检索增强、图谱增强及智能工具调用决策三大模块,旨在通过结合外部数据源、知识图谱和自动化决策提高智能回答的准确性和丰富度。通过具体代码示例展示了如何实现这些功能,最终形成一个能灵活应对多种查询需求的智能系统。
700 11
|
6月前
|
人工智能 安全 API
Higress.ai 站点全新发布,轻松解锁 AI 新能力,开启全球服务!
Higress.ai 除了提供常见的最佳实践(文章形式)/社区/企业版/GitHub/文档等功能外,特别设计了快速体验 AI 网关的【场景体验】,并提供开源体验和云上体验两种方式。同时,我们会在该站点首发 Higress AI 网关的最新能力。例如,我们即将上线 AI Guideline 提示词功能,开发者基于通义灵码/Cursor 等 AI 编程工具,将 Nginx/Kong 的 Lua 插件快速转化为 Higress Wasm 插件。
|
10月前
|
JavaScript 关系型数据库 MySQL
关于 MySQL 重复读导致的重复插入问题
本文介绍了在开发业务接口时遇到的MySQL重复读导致的数据重复插入问题,并通过伪代码示例详细解析了问题产生的原因。文章提出了四种解决方案:使用共享锁、控制事务并发执行、强制当前读以及调整隔离级别为READ COMMITTED,旨在确保读取最新数据,避免数据重复插入。
411 3
|
10月前
|
Java 数据库 数据安全/隐私保护
轻松掌握Spring依赖注入:打造你的登录验证系统
本文以轻松活泼的风格,带领读者走进Spring框架中的依赖注入和登录验证的世界。通过详细的步骤和代码示例,我们从DAO层的创建到Service层的实现,再到Spring配置文件的编写,最后通过测试类验证功能,一步步构建了一个简单的登录验证系统。文章不仅提供了实用的技术指导,还以口语化和生动的语言,让学习变得不再枯燥。
184 2
|
Kubernetes 关系型数据库 分布式数据库
PolarDB在混合云环境下的部署策略与挑战
【9月更文挑战第5天】随着云计算技术的发展,混合云成为众多企业首选,以满足数据管理和业务扩展需求。阿里巴巴自研的PolarDB是一款高性能云原生数据库,在混合云中可通过多种方式部署,如Kubernetes,实现资源弹性伸缩及自动化管理,并支持跨平台数据同步与金融级高可用性。然而,混合云环境下也带来了复杂性、成本优化及运维难度等挑战,企业需综合考虑平台兼容性、安全性和资源投入比例等问题。
278 5
|
12月前
|
存储 关系型数据库 MySQL
优化 MySQL 的锁机制以提高并发性能
【10月更文挑战第16天】优化 MySQL 锁机制需要综合考虑多个因素,根据具体的应用场景和需求进行针对性的调整。通过不断地优化和改进,可以提高数据库的并发性能,提升系统的整体效率。
620 1
|
JavaScript 容器
vue element plus Container 布局容器
vue element plus Container 布局容器
475 0
|
SQL 自然语言处理 数据库
【Star2.0】在ModelScope 平台体验STAR2.0预训练表格模型
近期在耶鲁大学的CoSQL和SParC表格问答榜单上,多轮表格预训练模型STAR取得了双榜单第一的效果,阿里近期打造的Modelscope模型即服务共享平台已接入了STAR模型,笔者在该平台做了尝试,可以轻松调用该模型进行表格问答的预测。
1123 0
|
缓存 Linux
百度搜索:蓝易云【CentOS-8 - AppStream 错误:为 repo ‘AppStream‘ 下载元数据失败解决教程。】
通过以上步骤,你应该能够解决 "为 repo 'AppStream' 下载元数据失败" 的错误,并成功更新 AppStream 仓库的元数据。
721 0