换个姿势看马氏距离和主成分分析

简介: 换个姿势看马氏距离和主成分分析

马氏距离[1],全称马哈拉诺比斯距离,是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的,即独立于测量尺度。


image.png


当p为2时,欧式距离即为平面上两个点的直线距离,在p维空间中,欧式距离即为p维空间上两个点的直线距离。


为了数学上的表达方便,我们经常使用平方欧式距离:


image.png


由公式可知,如果各分量的单位不全相同,则上述欧式距离是无意义的。即使各分量的单位相同,如果各分量的方差不同,那么欧式距离也会受到较大方差分量的影响。


为了便于理解,我们看一下 到样本均值的平方欧式距离:


image.png


由于为随机变量,应在平均的角度观察每一项所起作用的大小,则有:

image.png


从公式中可以看出,方差越大,随机分量起的作用就越大。此处如果对各分量都做了标准化变换,则各分量方差均为1,因此平方和中各分量所起的平均作用都一样,


虽然欧式距离经变量的标准化之后能够消除各变量的单位或方差的不同影响,但不能消除变量之间相关性带来的不利影响。如图所示[2]

640.png


肉眼可见B点应该更加离群,但是经过标准化之后求欧式距离发现A点离原点更远,也就是A点更离群,这与我们的直觉相违背,主要原因在于和有明显的线性相关关系,这对于欧式距离的计算会产生不利的影响。


那么如何克服分量之间的相关性对于欧式距离计算的影响呢?我们可以考虑对,坐标轴做一定程度的旋转,旋转成构成的新坐标轴,此处可以使得和不相关,由于和的方差不一样,那么同样可以通过标准化变化使得和方差一样,新坐标系下两个点之间的欧式距离即为马氏距离。马氏距离的公式定义如下:

image.png

下面详细介绍一下马氏距离的推导过程:

image.png

image.png


因此,对x做线性变换后得到新随机变量y里面的各分量是线性无关的,其协方差矩阵是对角矩阵,y的方差为,我们还需要对y做标准化处理,使得y的方差变为1,形成新的y,变换公式如下:

image.png


因而,对于旋转压缩后的的各分量之间线性无关,而且已经标准化,同时与尺度无关。因而这里可以直接使用欧氏距离描述两点之间的距离,公式如下:

image.png


证毕


以上可以看出,只需要将变量按照主成分进行旋转,从而让随机变量的各分量相互独立,然后进行标准化后的欧式距离即为马氏距离,对x的各分量做线性变换后,马氏距离保持不变,马氏距离是一个与各变量单位无关的纯数值.

相关文章
|
弹性计算 关系型数据库 MySQL
快速上手阿里云RDS MySQL实例创建,轻松管理数据库
快速上手阿里云RDS MySQL实例创建,轻松管理数据库 在数字化时代,数据已成为企业的核心资产。如何高效、安全地存储和管理这些数据,成为企业在云计算时代亟待解决的问题。阿里云的RDS(关系型数据库服务)应运而生,为用户提供稳定、可靠的云上数据库解决方案。本文将详细介绍如何通过阿里云RDS管理控制台快速创建RDS MySQL实例,让您轻松上手,快速部署数据库。
702 2
|
数据采集 JSON 监控
Kotlin高效App爬取工具:利用HttpClient与代理服务器的技巧
Kotlin高效App爬取工具:利用HttpClient与代理服务器的技巧
|
Kubernetes 监控 中间件
微服务从代码到k8s部署应有尽有系列全集
微服务从代码到k8s部署应有尽有系列全集
|
10月前
|
Oracle Ubuntu 关系型数据库
linux发行版对比
国内部分常用开源操作系统简要对比
471 5
|
机器学习/深度学习 人工智能 自然语言处理
机器学习系列1 机器学习历史
 人工智能(AI)作为计算机领域与机器学习的历史交叉点,随着支撑机器学习的算法和算力的增长,AI的发展也得到进步。值得关注的是,虽然这些研究从1950年代已经开始出现,但重要的算法:统计,数学,计算等相关技术理论的发现远早于这个时代。事实上,人们已经思考这些问题数百年 。本文将讨论“思考机器”概念的历史知识基础。
461 0
|
芯片 内存技术
什么是内存颗粒?内存条的构成!
什么是内存颗粒?内存条的构成!
1071 0
什么是内存颗粒?内存条的构成!
|
关系型数据库 MySQL 数据库
Mysql 安装MySQL测试数据库employee
许多同学在做MySQL数据库测试时苦于没有测试数据,除了线上导一小段数据、或者利用sysbench生成测试数据外,官方其实也提供了了一套名为:Employees Sample Database的测试库(该测试库含有6个表,总计4百万数据记录) 测试数据库导入文件下载:https://launchpad.
3366 0
|
存储 关系型数据库 MySQL
常见连接工具保存密码获取
之前有发过关于xshell&finalshell密码破解的文章,本文将继续对一些其他常见的连接工具进行讨论,如有错误,欢迎留言指出!
1064 0
常见连接工具保存密码获取
|
安全 文件存储 数据安全/隐私保护
将各大网盘挂载本地使用!爽!
发现了一个网盘变硬盘神器
将各大网盘挂载本地使用!爽!
|
Java 关系型数据库 MySQL
【Java】Java连接Mysql数据库的demo示例
【Java】Java连接Mysql数据库的demo示例
532 0
【Java】Java连接Mysql数据库的demo示例