期末复习【机器学习】4

简介: 期末复习【机器学习】4

9 聚类(K-means)

聚类概述

所谓聚类问题,就是给定一个元素集D={x_0,x_1…….x_k},其中每个元素具有n个特征,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇(cluster)。

距离度量

1、欧式距离(Euclidean Distance)


2、曼哈顿距离(Manhattan Distance)


3、闵氏距离(Minkowski Distance)


4、余弦相似度(Cosine Similarity)


4、距离度量的基本性质



聚类算法

K-Means算法



伪代码


练习



D={A(5,3),B(-1,1),C(1,-2),D(-3,-2)}
K=2
初始均值向量
两个初始中心1(B)、初始中心2(D)
u1=(-1,1),u2=(-3,-2)
C1=∅,C2=∅
分别计算A、B、C、D到中心u1,u2的欧式距离
Da1=sqrt(40)  Da2=sqrt(89)
Db1=sqrt(0)  Db2=sqrt(25)
Dc1=sqrt(13)  Dc2=sqrt(16)
Dd1=sqrt(25)  Dd2=sqrt(0)
C1={A,B,C},C2={D}
计算新的均值向量
u1=(5/3,2/3),u2=(-3,-2)
分别计算A、B、C、D到中心u1,u2的欧式距离
Da1=sqrt(16.5...)  Da2=sqrt(89)
Db1=sqrt(7.2...)  Db2=sqrt(25)
Dc1=sqrt(7.5...)  Dc2=sqrt(16)
Dd1=sqrt(28.8...)  Dd2=sqrt(0)
C1={A,B,C},C2={D}
计算均值向量
u1=(5/3,2/3),u2=(-3,-2)
不再改变
所以,C1={A,B,C},C2={D}

改进


2、DBSCAN算法



10 SVM(原理)

1.什么是支持向量机?

支持向量机(Support Vector Machine,简称为SVM)是一种有监督的机器学习方法,用来进行分类和回归分析。

2.支持向量机算法

1)解决线性可分问题

2)再将线性可分问题中获得的结论推广到线性不可分情况。

3.支持向量机的优势?

解决小样本、非线性及高维模式识别中表现出许多特有的优势。

4.支持向量机的种类:

硬间隔SVM(Hard-margin SVM)

核SVM (Kernel SVM)

软间隔SVM (Soft-margin SVM)


-A:应选择”正中间”, 容忍性好, 鲁棒性高, 泛化能力最强.

更能抵御训练样本位置的误差




最后

请您阅读文章声明,默认同意该声明


相关文章
|
11月前
|
机器学习/深度学习 算法
期末复习【机器学习】2
期末复习【机器学习】2
54 0
|
11月前
|
机器学习/深度学习
期末复习【机器学习】3
期末复习【机器学习】3
84 1
|
11月前
|
机器学习/深度学习 算法 数据挖掘
期末复习【机器学习】1
期末复习【机器学习】1
119 0
|
2月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
140 14
|
2月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
2月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
52 1
|
2月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
195 0
|
2月前
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
342 0
|
2月前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的支持向量机(SVM)算法
【2月更文挑战第20天】 在数据科学与人工智能的领域中,支持向量机(SVM)是一种强大的监督学习算法,它基于统计学习理论中的VC维理论和结构风险最小化原理。本文将深入探讨SVM的核心概念、工作原理以及实际应用案例。我们将透过算法的数学原理,揭示如何利用SVM进行有效的数据分类与回归分析,并讨论其在处理非线性问题时的优势。通过本文,读者将对SVM有更深层次的理解,并能够在实践中应用这一算法解决复杂的数据问题。
41 0
|
2月前
|
机器学习/深度学习 分布式计算 算法
大模型开发:你如何确定使用哪种机器学习算法?
在大型机器学习模型开发中,选择算法是关键。首先,明确问题类型(如回归、分类、聚类等)。其次,考虑数据规模、特征数量和类型、分布和结构,以判断适合的算法。再者,评估性能要求(准确性、速度、可解释性)和资源限制(计算资源、内存)。同时,利用领域知识和正则化来选择模型。最后,通过实验验证和模型比较进行优化。此过程涉及迭代和业务需求的技术权衡。