9个数据科学中常见距离度量总结以及优缺点概述(下)

简介: 9个数据科学中常见距离度量总结以及优缺点概述

明可夫斯基距离(闵氏距离)Minkowski

640.png

Minkowski距离比大多数距离更复杂。它是在范数向量空间(n维实数空间)中使用的度量,这意味着它可以在任何距离可以表示为具有长度的向量的空间中使用。

该措施具有三个要求:

  1. 零向量—零向量的长度为零,而每个其他向量的长度为正。例如,如果我们从一个地方到另一个地方旅行,那么该距离始终为正。但是,如果我们从一个地方到自己的地方旅行,则该距离为零。
  2. 标量因数—当向量与正数相乘时,其长度会更改,同时保持其方向。例如,如果我们在一个方向上走了一定距离并添加了相同的距离,则方向不会改变。
  3. 三角形不等式—两点之间的最短距离是一条直线。

Minkowski距离的公式如下所示:

640.png

关于这个距离度量最有趣的是参数p的使用。我们可以使用这个参数来操纵距离度量,使其与其他度量非常相似。

常见的p值有:

p=1 -曼哈顿距离

p=2 -欧氏距离

p=∞- 切比雪夫距离

缺点

Minkowski与它们所代表的距离度量具有相同的缺点,因此,良好地理解曼哈顿距离、欧几里得距离和切比雪夫距离等度量标准是非常重要的。

此外,使用参数p实际上可能很麻烦,因为根据您的用例,查找正确的值在计算上可能非常低效。

用例

p的好处是可以迭代它,并找到最适合用例的距离度量。它允许您在距离度量上有很大的灵活性,如果您非常熟悉p和许多距离度量,这将是一个巨大的好处。

Jaccard指数

640.png

Jaccard指数(交并比IOU)是一个用于计算样本集的相似性和多样性的度量。它是交集的大小除以样本集的并集的大小。

实际上,它是集合之间相似实体的总数除以实体的总数。例如,如果两个集合有1个共同的实体,而总共有5个不同的实体,那么Jaccard索引将是1/5 = 0.2。

要计算Jaccard距离,我们只需从1中减去Jaccard指数:

640.png

缺点

Jaccard指数的主要缺点是它受到数据大小的很大影响。大型数据集可能会对指数产生很大影响,因为数据量大的话可能显著增加并集,同时保持交集不变。

用例

Jaccard索引通常用于使用二进制或二进制数据的应用程序中。当您拥有一个预测图像片段(例如汽车)的深度学习模型时,可以使用Jaccard索引来计算给定真实标签的预测片段的准确性。

同样,它也可以用于文本相似度分析,以衡量文档之间的选词重叠程度。因此,它可以用来比较模式集。

半正矢距离(haversine)

640.png

Haversine距离是指球面上两个点之间的经度和纬度。它与欧几里得距离非常相似,因为它可以计算两点之间的最短线。主要区别在于不可能有直线,因为这里的假设是两个点都在一个球面上。

640.png

缺点

这种距离测量的一个缺点是,假定这些点位于一个球体上。实际上,这种情况很少出现,例如,地球不是完美的圆形,在某些情况下可能会使计算变得困难。取而代之的是,将目光转向假定椭圆形的Vincenty距离。

用例

如您所料,Haversine距离通常用于导航。例如,您可以使用它来计算两个国家之间的飞行距离。请注意,如果距离本身不那么大,则不太适合。曲率不会产生太大的影响。

Sørensen-Dice 指数

640.png

Sørensen-Dice指数与Jaccard指数非常相似,它衡量的是样本集的相似性和多样性。尽管它们的计算方法类似,但Sørensen-Dice索引更直观一些,因为它可以被视为两个集合之间重叠的百分比,这是一个介于0和1之间的值。

这个指数在距离度量中很重要,因为它允许更好地使用没有v的度量

DICE指数是一个用于计算样本集的相似性和多样性的度量。它是交集的大小除以样本集的并集的大小。

实际上,它是集合之间相似实体的总数除以实体的总数。例如,如果两个集合有一个共同的实体,而总共有5个不同的实体,那么DICE指数将是1/5 = 0.2。

640.png

缺点

就像Jaccard指数一样,它们都夸大了很少或没有真值的集合。它可以控制多组平均得分并按相关集合的大小成反比地加权每个项目,而不是平等对待它们。

用例

用例与Jaccard指数相似。您会发现它通常用于图像分割任务或文本相似性分析中。


注意:比这里提到的9种距离测量更多。如果您正在寻找更有趣的指标,我建议您研究以下内容之一:Mahalanobis, Canberra, Braycurtis, and KL-divergence.

目录
相关文章
|
机器学习/深度学习 数据采集 人工智能
机器学习基础知识——基本原理、常用算法与评估指标
机器学习基础知识——基本原理、常用算法与评估指标
683 0
|
2月前
|
机器学习/深度学习 数据可视化 算法
经典时间序列分析概述:技术、应用和模型
时间序列数据按时间顺序收集,具有时间维度的重要性,需专门技术和模型进行分析预测。其应用广泛,涵盖经济预测、风险管理、天气预报、气候建模、流行病学、患者监测、需求预测、客户行为分析及预测性维护等领域。时间序列特征包括趋势、季节性和周期性模式。自相关和偏自相关用于衡量数据点间关系,白噪声表示无自相关的时间序列。平稳性指统计特性随时间保持一致,对建模至关重要。常见模型包括ARMA、ARIMA、SARIMA、ARCH和GARCH,用于捕捉复杂动态并预测未来模式。选择合适模型和确定顺序对准确预测至关重要。掌握这些基础知识不仅增强对复杂模型的理解,还能确保预测方法的稳健性和可靠性。
67 1
经典时间序列分析概述:技术、应用和模型
|
4月前
|
机器学习/深度学习 数据可视化 测试技术
统计学入门:时间序列分析基础知识详解
本文探讨了时间序列分析的核心概念,包括自协方差、自相关和平稳性。通过Python实现和图形化展示了这些概念,以增进理解。时间序列涉及观察随时间变化的数据,如心率或温度。自协方差和自相关衡量数据点之间的关系,滞后表示时间间隔。弱平稳性意味着均值、方差和协方差不随时间变化。文章介绍了自回归(AR)、移动平均(MA)、ARMA和ARIMA模型,用于描述不同类型的序列行为。统计检验如ADF和Durbin-Watson用于检测平稳性和残差自相关。ARIMA模型特别适用于非平稳数据,通过差分实现平稳化。文章还提供了代码示例和可视化来辅助学习。
77 4
|
3月前
|
机器学习/深度学习 数据挖掘 Python
【数据挖掘】生成模型和判别模型的区别及优缺点
文章讨论了生成模型和判别模型在数据挖掘中的区别、原理、优缺点,并提供了一些常见的模型示例。
35 0
|
6月前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
机器学习/深度学习
总结机器学习中7种离散特征编码方式优缺点
整理总结对比了7种机器学习离散特征编码方式的优缺点
218 0
|
机器学习/深度学习 算法 数据可视化
机器学习基础——k-近邻算法概述和简单实现
本章介绍第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握。首先,我们将探讨k-近邻算法的基本理论,以及如何使用距离测量的方法分类物品;其次我们将使用Python从文本文件中导人并解析数据。
178 0
机器学习基础——k-近邻算法概述和简单实现
|
算法 搜索推荐 测试技术
9个数据科学中常见距离度量总结以及优缺点概述(上)
9个数据科学中常见距离度量总结以及优缺点概述
393 0
9个数据科学中常见距离度量总结以及优缺点概述(上)
|
机器学习/深度学习 人工智能 自然语言处理
机器学习入门:概念原理及常用算法
机器学习入门:概念原理及常用算法
179 0
机器学习入门:概念原理及常用算法
|
机器学习/深度学习 算法 数据挖掘
下一篇
无影云桌面