9个数据科学中常见距离度量总结以及优缺点概述(上)

简介: 9个数据科学中常见距离度量总结以及优缺点概述

许多算法,无论是监督或非监督,都使用距离度量。这些度量,如欧几里得距离或余弦相似度,经常可以在k-NN、UMAP、HDBSCAN等算法中找到。

理解距离测量域比你可能意识到的更重要。以k-NN为例,这是一种经常用于监督学习的技术。作为默认值,它通常使用欧几里得距离。它本身就是一个很大的距离。

但是,如果您的数据是高维的呢?那么欧几里得距离还有效吗?或者,如果您的数据包含地理空间信息呢?也许haversine 距离是更好的选择!

知道何时使用哪种距离量度可以帮助您从分类不正确的模型转变为准确的模型。

在本文中,我们将研究许多距离度量方法,并探讨如何以及何时最佳地使用它们。最重要的是,我将谈论它们的缺点,以便您可以识别何时避开某些措施。

注意:对于大多数距离度量,可以并且已经针对其用例,优点和缺点编写了详尽的论文。我会尽量覆盖,但可能会有所欠缺!因此,请将本文视为这些方法的概述。

欧氏距离 Euclidean Distance

640.png

我们从最常见的距离度量开始,即欧几里得距离。最好将距离量度解释为连接两个点的线段的长度。

该公式非常简单,因为使用勾股定理从这些点的笛卡尔坐标计算距离。

640.png

缺点

尽管这是一种常用的距离度量,但欧几里德距离并不是比例不变的,这意味着所计算的距离可能会根据要素的单位而发生偏斜。通常,在使用此距离度量之前,需要对数据进行标准化。

此外,随着数据维数的增加,欧氏距离的用处也就越小。这与维数的诅咒有关,维数的诅咒与高维空间不能像期望的二维或3维空间那样起作用。

用例

当您拥有低维数据并且向量的大小非常重要时,欧几里得距离的效果非常好。如果在低维数据上使用欧几里得距离,则kNN和HDBSCAN之类的方法将显示出出色的结果。

尽管已开发出许多其他措施来解决欧几里得距离的缺点,但出于充分的原因,它仍然是最常用的距离之一。它使用起来非常直观,易于实现,并且在许多用例中都显示出了极好的效果。

余弦相似度Cosine Similarity

640.png

余弦相似度经常被用作解决高维数欧几里德距离问题的方法。余弦相似度就是两个向量夹角的余弦。如果将向量归一化为长度均为1,则向量的内积也相同。

两个方向完全相同的向量的余弦相似度为1,而两个彼此相对的向量的相似度为-1。注意,它们的大小并不重要,因为这是方向的度量。

640.png

缺点

余弦相似度的一个主要缺点是没有考虑向量的大小,而只考虑它们的方向。在实践中,这意味着没有充分考虑价值的差异。以一个推荐系统为例,余弦相似度没有考虑到不同用户之间评分尺度的差异。

用例

当我们对拥有的高维数据向量的大小不关注时,通常会使用余弦相似度。对于文本分析,当数据由字数表示时,此度量非常常用。例如,当一个单词在一个文档中比另一个单词更频繁出现时,这并不一定意味着一个文档与该单词更相关。可能是文件长度不均匀,计数的重要性不太重要。然后,我们最好使用忽略幅度的余弦相似度。。

汉明距离 Hamming Distance

640.png

汉明距离是两个向量之间不同值的个数。它通常用于比较两个相同长度的二进制字符串。它还可以用于字符串,通过计算不同字符的数量来比较它们之间的相似程度。

缺点

如您所料,当两个向量的长度不相等时,很难使用汉明距离。为了了解哪些位置不匹配,您可能希望比较相同长度的向量。

此外,只要它们不同或相等,就不会考虑实际值。因此,当幅度是重要指标时,建议不要使用此距离指标。

用例

典型的用例包括数据通过计算机网络传输时的错误纠正/检测。它可以用来确定二进制字中失真的数目,作为估计误差的一种方法。

此外,您还可以使用汉明距离来度量分类变量之间的距离。

曼哈顿距离 Manhattan Distance

640.png

曼哈顿距离,通常称为出租车距离或城市街区距离,计算实值向量之间的距离。想象描述均匀网格(如棋盘)上物体的向量。曼哈顿距离是指两个矢量之间的距离,如果它们只能移动直角。在计算距离时不涉及对角线移动。

640.png

缺点

尽管曼哈顿距离在高维数据中似乎可以工作,但它比欧几里得距离更不直观,尤其是在高维数据中使用时。

此外,由于它不是可能的最短路径,它比欧几里得距离更有可能给出一个更高的距离值。虽然这并不一定会带来问题,但这是你应该考虑的。

用例

当数据集具有离散和/或二进制属性时,Manhattan似乎工作得很好,因为它考虑了在这些属性的值中实际可以采用的路径。以欧几里得距离为例,它会在两个向量之间形成一条直线,但实际上这是不可能的。

切比雪夫距离 Chebyshev Distance

640.png

切比雪夫距离定义为两个向量在任意坐标维度上的最大差值。换句话说,它就是沿着一个轴的最大距离。由于其本质,它通常被称为棋盘距离,因为国际象棋的国王从一个方格到另一个方格的最小步数等于切比雪夫距离。

640.png

缺点

切比雪夫通常用于非常特定的用例,这使得它很难像欧氏距离或余弦相似度那样作通用的距离度量,因此,建议您只在绝对确定它适合您的用例时才使用它。

用例

如前所述,切比雪夫距离可用于提取从一个正方形移动到另一个正方形所需的最小移动次数。此外,在允许无限制八向移动的游戏中,这可能是有用的方法。

在实践中,切比雪夫距离经常用于仓库物流,因为它非常类似于起重机移动一个物体的时间。

目录
相关文章
|
机器学习/深度学习 数据采集 人工智能
机器学习基础知识——基本原理、常用算法与评估指标
机器学习基础知识——基本原理、常用算法与评估指标
779 0
|
4月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例
机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律,从而能够对未知数据做出预测或决策。
146 2
|
5月前
|
机器学习/深度学习 数据可视化 测试技术
统计学入门:时间序列分析基础知识详解
本文探讨了时间序列分析的核心概念,包括自协方差、自相关和平稳性。通过Python实现和图形化展示了这些概念,以增进理解。时间序列涉及观察随时间变化的数据,如心率或温度。自协方差和自相关衡量数据点之间的关系,滞后表示时间间隔。弱平稳性意味着均值、方差和协方差不随时间变化。文章介绍了自回归(AR)、移动平均(MA)、ARMA和ARIMA模型,用于描述不同类型的序列行为。统计检验如ADF和Durbin-Watson用于检测平稳性和残差自相关。ARIMA模型特别适用于非平稳数据,通过差分实现平稳化。文章还提供了代码示例和可视化来辅助学习。
99 4
|
7月前
|
人工智能 算法 数据可视化
数据分析入门系列教程-决策树原理
数据分析入门系列教程-决策树原理
|
机器学习/深度学习
机器学习粗略框架,帮助你快速入门
机器学习粗略框架,帮助你快速入门
74 0
|
机器学习/深度学习 数据可视化
『机器学习』核心概念的可视化解释
『机器学习』核心概念的可视化解释
|
机器学习/深度学习
机器学习数学基础五:数据科学的一些基本分布
每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。
70 0
机器学习数学基础五:数据科学的一些基本分布
|
机器学习/深度学习 算法 数据可视化
机器学习基础——k-近邻算法概述和简单实现
本章介绍第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握。首先,我们将探讨k-近邻算法的基本理论,以及如何使用距离测量的方法分类物品;其次我们将使用Python从文本文件中导人并解析数据。
184 0
机器学习基础——k-近邻算法概述和简单实现
|
机器学习/深度学习 测试技术 计算机视觉
9个数据科学中常见距离度量总结以及优缺点概述(下)
9个数据科学中常见距离度量总结以及优缺点概述
452 0
9个数据科学中常见距离度量总结以及优缺点概述(下)
|
机器学习/深度学习 人工智能 自然语言处理
机器学习入门:概念原理及常用算法
机器学习入门:概念原理及常用算法
189 0
机器学习入门:概念原理及常用算法