【算法系列】主成分分析的数学模型

简介: 【算法系列】主成分分析的数学模型

定义


主成分分析又称主分量分析或主轴分析,是将多个指标化为少数几个综合指标的一种多元统计分析方法.从数学角度来看,这是一种降维处理技术。通常把转化生成的综合指标称之为主成分。


主成分分析基本思想


在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多指标,少到四、五项,多则几十项。例如:人口普查往往要调查每个人的姓名、年龄、性别、文化程度、职业、住房等几十项指标。从搜集资料的角度看,多记录几项可以避免重要信息的遗漏,但是由于这些指标从统计角度来看相互之间有一定的依赖关系,因而使得所观测的数据在一定程度上反映的信息有所重叠。因此,从统计分析或推断的角度来说,人们总是希望能把大量的原始指标组合成较少的几个综合指标,从而使分析简化。这些综合指标的变化要能大体上反映样本全部指标的变化,而不丧失或者只丧失很少一部分原始指标所提供的信息。


例如:一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等等,但人们购买衣服时一般只用长度和肥瘦两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的两个综合指标。


主成分分析的一般数学模型


640.png


640.png


1、通常,一些变量具有不同的量纲,有的变量值数量级上也有很大差异,在应用主成分分析研究实际问题时,不同的量纲和数量级会引出新的问题;为了消除由于量纲的不同可能带来的一些不合理的影响,在进行主成分分析之前先对数据进行标准化处理。


640.png


2、为了方便,将数据标准化后的矩阵仍用原来的x记,考虑它的线性变换——新的综合变量由原来的变量x1,x2,…,xP线性表示,即:


640.png


由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量y的统计特性也不尽相同。


假如我们希望用y1来代替原来的p个变量x1,x2,…,xP,这就要求y1尽可能多地反映原来p个变量的信息,即希望y1是x1,x2,…,xP的一切线性函数中方差最大的。


为什么要用方差的大小来寻找主成分


举例说:反映城镇居民生活消费状况的指标通常有8个(食品、衣着、日用品、…),我们希望由这8个指标线性组合成一个新指标,亦即一个可以帮助我们衡量各地城镇居民总体生活消费状况的综合性指标,当然也希望此指标能真正显出消费程度的差异(富裕的、贫穷的),所以此指标方差越大,便代表它对居民消费程度差异拥有越大的反映及解释能力。


因此,p个原始观测变量的第一主成分就应该是这p个原始观测变量的所有线性组合中方差最大的那个综合指标,第二主成分就应该是这p个原始观测变量的所有线性组合中方差次大的那个综合指标,∙∙∙,第p个主成分就应该是这p个原始观测变量的所有线性组合中方差第p大的那个综合指标。

640.png

640.png

640.jpg



如果第一主成分不足以代表原来p个变量的绝大部分信息,则往往还要计算p个原始指标的第二主成分y2。为了有效地代表原变量的信息,第一主成分(y1)已反映(体现)的信息不希望在第二主成分(y2)中出现,用统计语言来讲,就是要  640.png

于是求第二主成分(y2),就是在约束条件640.png和cov (y2,y1)=0下,求a2使Var(y2)达到最大,所求之y2称为第二主成分。类似地可求得第三主成分、第四主成分等等。  


综上所述,我们将线性变换约束在下面的原则之下:

(1)640.png640.png


(2)yi与yj(i≠j;i,j=1,2,…,p)相互无关;


(3)y1是x1,x2,…,xp的一切满足原则(1)的线性组合中方差最大者;y2是与y1不相关的  x1,x2,…,xp的所有线性组合中方差最大者;…;yp是与y1,y2,……yp-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。

基于以上三条原则决定的新(综合)变量y1,y2,…,yp分别称为原始变量x1,x2,…,xp的第一,第二,…,第p个主成分。其中,y1在总方差中占的比例最大,y2,y3,…,yp的方差依次递减。


后记


在商务与经济中,常常需要将很复杂的数据集综合成商业指数形式,也就是说将p个指标所构成的p维系统简化为一维系统,一些熟悉的例子如物价指数、生活费用指数等,这些指数是由各种加权成分所组成的,在某种意义上,这些权数反映了各种成分相对重要性的数量,从主成分的观点来探讨这个问题,主成分分析所构成的第一主成分正是这一问题的答案,它提供了自身的权重系数。)

640.png


下节我们介绍主成分分析的几个意义,敬请期待。

相关文章
|
12月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
323 3
|
7天前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
65 3
|
4月前
|
机器学习/深度学习 边缘计算 算法
NOMA和OFDMA优化算法分析
NOMA和OFDMA优化算法分析
244 127
|
6月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
253 4
|
3月前
|
人工智能 自然语言处理 算法
2025 年 7 月境内深度合成服务算法备案情况分析报告
2025年7月,中央网信办发布第十二批深度合成算法备案信息,全国389款产品通过备案,服务提供者占比超七成。截至7月14日,全国累计备案达3834款,覆盖文本、图像、音视频等多模态场景,广泛应用于生活服务、医疗、金融等领域。广东以135款居首,数字人、AI客服等C端应用主导,民营企业成主力,国企聚焦公共服务。随着AI政策推动,备案已成为AI产品合规上线关键环节。
|
6月前
|
存储 监控 算法
员工行为监控软件中的 Go 语言哈希表算法:理论、实现与分析
当代企业管理体系中,员工行为监控软件已逐步成为维护企业信息安全、提升工作效能的关键工具。这类软件能够实时记录员工操作行为,为企业管理者提供数据驱动的决策依据。其核心支撑技术在于数据结构与算法的精妙运用。本文聚焦于 Go 语言中的哈希表算法,深入探究其在员工行为监控软件中的应用逻辑与实现机制。
148 14
|
7月前
|
自然语言处理 算法 安全
境内深度合成服务算法备案通过名单分析报告
本报告基于《境内深度合成服务算法备案通过名单》,分析了2023年6月至2025年3月公布的10批备案数据,涵盖属地分布、行业应用及产品形式等多个维度。报告显示,深度合成算法主要集中于经济发达地区,如北京、广东、上海等地,涉及教育、医疗、金融、娱乐等多行业。未来趋势显示技术将向多模态融合、行业定制化和安全合规方向发展。建议企业加强技术研发、拓展应用场景、关注政策动态,以在深度合成领域抢占先机。此分析旨在为企业提供参考,助力把握技术发展机遇。
境内深度合成服务算法备案通过名单分析报告
|
7月前
|
供应链 算法 搜索推荐
从公布的前十一批其他算法备案通过名单分析
2025年3月12日,国家网信办发布算法备案信息,深度合成算法通过395款,其他算法45款。前10次备案中,深度合成算法累计3234款,其他类别647款。个性化推送类占比49%,涵盖电商、资讯、视频推荐;检索过滤类占31.53%,用于搜索优化和内容安全;调度决策类占9.12%,集中在物流配送等;排序精选类占8.81%,生成合成类占1.55%。应用领域包括电商、社交媒体、物流、金融、医疗等,互联网科技企业主导,技术向垂直行业渗透,内容安全和多模态技术成新增长点。未来大模型检索和多模态生成或成重点。
从公布的前十一批其他算法备案通过名单分析
|
7月前
|
人工智能 自然语言处理 供应链
从第十批算法备案通过名单中分析算法的属地占比、行业及应用情况
2025年3月12日,国家网信办公布第十批深度合成算法通过名单,共395款。主要分布在广东、北京、上海、浙江等地,占比超80%,涵盖智能对话、图像生成、文本生成等多行业。典型应用包括医疗、教育、金融等领域,如觅健医疗内容生成算法、匠邦AI智能生成合成算法等。服务角色以面向用户为主,技术趋势为多模态融合与垂直领域专业化。
|
8月前
|
存储 缓存 监控
企业监控软件中 Go 语言哈希表算法的应用研究与分析
在数字化时代,企业监控软件对企业的稳定运营至关重要。哈希表(散列表)作为高效的数据结构,广泛应用于企业监控中,如设备状态管理、数据分类和缓存机制。Go 语言中的 map 实现了哈希表,能快速处理海量监控数据,确保实时准确反映设备状态,提升系统性能,助力企业实现智能化管理。
126 3

热门文章

最新文章