⚡一分钟⚡搞懂标准化、归一化和中心化

简介: ⚡一分钟⚡搞懂标准化、归一化和中心化

事情是这样的,就是某天在本菜日常"飙车"回宿舍的途中,想着曾经有个项目在对数据进行预处理的时候,用过一个操作,本来就已经对数据进行了标准化处理,然而在甲方(注意这里是万恶之源)对我算法代码的阅读时提出了,没有进行归一化处理的疑惑,顿时间,我想了想,好像是这么一回事哈,一个转身像超人一样消失在甲方面前,回去加了两行代码(归一化处理),跑完发现,咦~~好像真的效果提高了不少诶。故引发了我对下面的内容的思考,并想多说两句,望各位看官批评指点!!!


(上面不算,不能计时哈o(╥﹏╥)o)


其实有很多博主已经做了对标准化、归一化和中心化的理解介绍,但我始终感觉还是有一一点的繁琐,下面 本菜鸡 就尝试⚡一分钟⚡让你搞懂标准化、归一化和中心化,且他们的适用场景!


指明一点其中标准化和归一化其实都属于特征缩放(Feature scaling)的方法,被人误解很久(估计是翻译问题),下面只讲简单的标准化和归一化,复杂的在后续Blog呈现。


(o(╥﹏╥)o上面也不算哈,不能计时呀o(╥﹏╥)o)

标准化(Standardized)

简单粗暴的定义:将数据按比例缩放,使之落入一个小的特定区间,缩放到均值为0,方差为1。


首先,上公式,

image.png

参考sklearn的数据预处理官方文档,这里引用一下假设的身高和体重数据特征,且均满足正态分布

image.png

原始数据集

当我们通过标准化后,得到的为,

image.png

标准化后的数据

可见标准化后也同样满足正态分布,可以看出每个维度上的尺度是一致的,适合进行综合对比。

适用范畴:常用于数据之间差异过大。

归一化(Normalization)

简单的归一化指的就是,缩放到0和1之间,且保留原始数据的分布。

image.png

同样,简单归一化后的数据为,

image.png

归一化

数据的分布不变,去除了量纲的影响,缩小到(0,1)之间。


适用范畴:主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。提高收敛速度,提高模型精度。


中心化处理(Decentralized)

在回归分析中,中心化处理(又叫零均值化)常常指的是将变量减去它的均值,可得到均值为0,标准差为1的服从标准正态分布的数据。


简单来说就是将数据平移到坐标中心原点处。


引用一张网络上的元老级图来解释

image.png

中心化和标准化

左边为原始数据,中间为中心化处理,右边则为标准化处理数据。

中心化处理后的数据则是以原点为基准的,对向量也更容易描述。在做PCA时有所用到。


目录
打赏
0
0
0
0
26
分享
相关文章
《LSTM与ESN:动态系统数据处理的两大“神器”对决》
长短期记忆网络(LSTM)和回声状态网络(ESN)是动态系统数据处理中的两种关键技术。LSTM通过复杂的门控机制捕捉长期依赖,适用于数据量充足、对预测精度要求高的任务;而ESN结构简单,训练高效,擅长处理实时数据和不确定性较强的场景,具有较好的泛化能力和可解释性。两者各有优势,适用于不同场景。
|
8月前
八问八答搞懂Transformer内部运作原理
【8月更文挑战第28天】这篇名为“Transformer Layers as Painters”的论文通过一系列实验,深入探讨了Transformer模型内部不同层级的信息处理机制。研究发现,中间层级在表示空间上具有一致性,但功能各异,且模型对层级的去除或重排表现出较强的鲁棒性。此外,论文还分析了层级顺序、并行执行及循环等因素对模型性能的影响,揭示了不同任务下层级顺序的重要性差异,并指出随机化层级顺序和循环并行化对性能损害最小。
101 5
|
9月前
|
Python实现万花筒效果:创造炫目的动态图案
Python实现万花筒效果:创造炫目的动态图案
146 2
号称能打败MLP的KAN到底行不行?数学核心原理全面解析
Kolmogorov-Arnold Networks (KANs) 是一种新型神经网络架构,挑战了多层感知器(mlp)的基础,通过在权重而非节点上使用可学习的激活函数(如b样条),提高了准确性和可解释性。KANs利用Kolmogorov-Arnold表示定理,将复杂函数分解为简单函数的组合,简化了神经网络的近似过程。与mlp相比,KAN在参数量较少的情况下能达到类似或更好的性能,并能直观地可视化,增强了模型的可解释性。尽管仍需更多研究验证其优势,KAN为深度学习领域带来了新的思路。
3635 5
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
一劳永逸—MIT韩松团队开源神经网络的高效部署
一劳永逸—MIT韩松团队开源神经网络的高效部署
388 0
软工导第一节课 计算机软件工程学作一个简短的概述,回顾计算机系统发展简史 软件工程的基本原理和方法有概括的本质的认识,详细讲解生命周期相关知识讲解8种典型的软件过程模型
软工导第一节课 计算机软件工程学作一个简短的概述,回顾计算机系统发展简史 软件工程的基本原理和方法有概括的本质的认识,详细讲解生命周期相关知识讲解8种典型的软件过程模型
336 0
软工导第一节课 计算机软件工程学作一个简短的概述,回顾计算机系统发展简史 软件工程的基本原理和方法有概括的本质的认识,详细讲解生命周期相关知识讲解8种典型的软件过程模型
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等