ML之UL:无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略

简介: ML之UL:无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略

无监督学习Unsupervised Learning的概念


        现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。




        跟监督学习相反,无监督学习中数据集是完全没有标签的,依据相似样本在数据空间中一般距离较近这一假设,将样本分类。常见的无监督学习算法包括:稀疏自编码(sparse auto-encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means算法(K均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise)、最大期望算法(Expectation-Maximization algorithm, EM)等。




无监督学习Unsupervised Learning的应用


利用无监督学习可以解决的问题可以分为关联分析、聚类问题和维度约减。


1、关联分析


        关联分析是指发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋,那么商家就会把鸡蛋和面包放在相邻的货架上。



2、聚类问题


        聚类问题是指将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。


        无监督学习里典型例子是聚类。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。


2.1、聚类算法常见的五种分类—划分方法(K-means/K-medoids/CLARANS)、层次方法(BIRCH/DBSCAN/CURE)


        聚类算法一般有五种方法,最主要的是划分方法和层次方法两种。


        划分聚类算法,通过优化评价函数把数据集分割为K个部分,它需要K作为 输人参数。典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。


        层次聚类,由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。它不需要输入参数,这是它优于分割聚类算法的一个明显的优点,其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。



3、维度约减


        维度约减:顾名思义,是指减少数据维度的同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高维度转换到低维度。广为熟知的主成分分析算法就是特征提取的方法。




无监督学习Unsupervised Learning的经典案例


1、基础案例


TF之AE:AE实现TF自带数据集AE的encoder之后decoder之前的非监督学习分类

https://yunyaniu.blog.csdn.net/article/details/79204020



相关文章
|
自然语言处理 算法
PIKA最新推出 Lip Sync(口型同步)
【2月更文挑战第9天】PIKA最新推出 Lip Sync(口型同步)
1068 1
PIKA最新推出 Lip Sync(口型同步)
|
10月前
|
存储 人工智能 云栖大会
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
|
10月前
|
数据采集 算法 前端开发
社交媒体分析:破解无限滚动的技术实践
本方案介绍了一种高效的数据采集技术,涵盖技术演化路径、传统痛点解决及架构设计。通过代理IP轮换、请求指纹管理与滚动加载模拟等核心模块,大幅提升请求成功率(98%)和数据完整率(91%),显著降低封禁概率(3.2%)。实战代码以微博热搜为例,展示如何结合动态User-Agent、Cookie管理与三级校验机制实现稳定采集。行业应用表明,该方案可将采集效率提升3.8倍,封禁率降至0.7次/日,助力热点事件早期捕捉。适配大规模任务需求,同时注重流量控制与异常处理,确保稳定性与安全性。
208 7
社交媒体分析:破解无限滚动的技术实践
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
基于多路径路由的全局感知网络流量分配优化算法matlab仿真
本文提出一种全局感知网络流量分配优化算法,针对现代网络中多路径路由的需求,旨在均衡分配流量、减轻拥塞并提升吞吐量。算法基于网络模型G(N, M),包含N节点与M连接,并考虑K种不同优先级的流量。通过迭代调整每种流量在各路径上的分配比例,依据带宽利用率um=Σ(xm,k * dk) / cm来优化网络性能,确保高优先级流量的有效传输同时最大化利用网络资源。算法设定收敛条件以避免陷入局部最优解。
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在网络安全中的威胁情报分析与响应的应用
人工智能在网络安全中的威胁情报分析与响应的应用
|
人工智能 物联网 Linux
从端到云-全面讲解物联网全栈开发之道
万物互联的时代即将到来,互联网作为当今最为火热的方向之一,无数开发者沉迷其中,那么从事物联网开发需要哪些知识储备呢?在本次分享中,来自创客学院的刘正道老师从物联网就业与岗位分析、物联网与嵌入式、物联网行业解决方案、物联网课程体系四部分全面讲解物联网全栈开发之道,带你走向物联网开发世界。
7366 0
|
人工智能 JSON API
极智AI | 三谈昇腾CANN量化
大家好,我是极智视界,本文介绍一下 三谈昇腾CANN量化。
281 1
|
设计模式 前端开发 开发者
css 三栏布局的实现?
css 三栏布局的实现?
343 0