聚类算法中的距离度量有哪些?
1.欧式距离
$$D = \sqrt{\sum_{k=1}^n(x_{k} - y_{k})}$$
2.曼哈顿距离
$$D = \sum_{k=1}^n|x_{k}-y_{k}| $$
3.切比雪夫距离
$$D = max_{k}(|x_{k}-y_{k}|)$$
4.闵可夫斯基距离
$$D = \sqrt[p]{\sum_{k=1}^n|x_{k}-y_{k}|^p}$$
闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。
其中p是一个变参数
当p=1时,就是曼哈顿距离
当p=2时,就是欧氏距离
当p→∞时,就是切比雪夫距离
5.余弦相似度
6.皮尔逊相似度
皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦
7.Jaccard相似度
8.汉明距离
汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量
比如:1011101 与 1001001 之间的汉明距离是 2
9.马氏距离
$$D(X_i,X_j) = \sqrt{(X_i-X_j)^TS^{-1}(X_i-X_j)} $$
其中S-1是多维随机变量的协方差矩阵
10.修正的余弦相似度
11.加权的汉明距离
12.相关距离