为什么标准化要用均值0和方差1?

简介: 标准化将均值设为0,使数据居中于原点,提升梯度下降收敛速度;方差设为1,则统一各特征量纲,避免数值大的特征主导模型。二者协同确保算法训练更高效、公平。


为什么标准化要把均值设为0、方差设为1?

先说均值。均值就是平均数,所有观测值加起来除以个数。

μ是均值,n是数据点总数,xᵢ是每个数据点,所以均值就是数据的重心位置。比如均值是20,那20就是平衡点。这不是说所有点到20的距离相等而是说两边的"重量"刚好在20这个位置抵消掉。

而方差衡量的是数据有多分散,定义是每个值与均值偏差的平方的平均值。

n是数据点总数,xᵢ是每个数据点,μ是均值。

那均值为0有什么用?

可以把数据想象成坐标系里的一团“点云”。每个值减去均值(x — μ)之后,整团云就被平移到了原点位置。数据不再飘在某个角落而是以原点为中心分布。

这对很多机器学习算法都有好处,尤其是用梯度下降的时候。数据居中之后优化过程更平衡、收敛也更快。因为特征要是一开始就偏离原点很远,训练起来会麻烦不少。

那方差为1呢?

这是为了防止某个特征"欺负"其他特征。

举个例子:年龄和薪资两个特征,年龄范围10-70,薪资范围10,000-70,000。直接喂给模型的话,模型会觉得薪资比年龄重要1000倍(数字大嘛)。但这两个特征本来是独立的,凭什么薪资就更重要?

所以标准化就是除以标准差,让所有特征的方差都变成1。这样年龄和薪资就在同一个量级上了,变化幅度差不多。年龄有个小波动,不会因为薪资数字大就被模型无视掉。

可视化效果:

标准化之前,特征1(红色,小尺度)和特征2(蓝色,大尺度)放一起,红色那条几乎看不见。标准化之后,两个特征尺度一致,都能清晰显示出来。模型终于可以公平对待它们了。

什么时候需要标准化?逻辑回归、神经网络、KNN这类用梯度下降的算法,标准化影响最大。

总结一下:

均值为0让数据居中,方差为1让特征尺度统一。两者配合,算法学得更快,也不会偏心某个特征。至于什么时候该用标准化、什么时候该用MinMaxScaler,老实说我也还在摸索。

https://avoid.overfit.cn/post/957b1b35bc1047e185dab369ae8d84ed

作者:vaishnavi

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 JSON
提示词工程失灵了?掌握这五个信号,是时候考虑微调你的大模型了
本文解析提示词工程的五大失效信号:格式不稳、私有知识缺失、风格难统一、推理成本高、延迟超标。当提示词触及能力边界,微调成为破局关键——但需审慎评估数据、技术与成本。理性决策,方能释放大模型真正价值。
|
3月前
|
人工智能 开发框架 IDE
AI 时代的量化革命:10分钟开发你的第一个交易策略
本文手把手教你用AI工具10分钟开发首个量化交易策略:从克隆SDK、启动AI IDE,到生成KDJ_RSI组合策略、配置运行环境并实盘验证。零基础也能快速上手,开启AI驱动的量化投资新范式!
722 17
|
3月前
|
机器学习/深度学习 传感器 算法
从代码到物理世界:具身智能的强化学习实战指南
你好,我是maoku!本文带你入门具身智能的强化学习——用直觉与实践替代繁复公式,详解感知融合、连续控制、仿真迁移等核心挑战,并规划PPO→SAC→模仿学习→分层RL的四步进阶路径,助你跨越“仿真到现实”鸿沟。
|
3月前
|
存储 安全 数据库
使用 Docker 部署 Clawdbot(官方推荐方式)
Clawdbot 是一款开源、本地运行的个人AI助手,支持 WhatsApp、Telegram、Slack 等十余种通信渠道,兼容 macOS/iOS/Android,可渲染实时 Canvas 界面。本文提供基于 Docker Compose 的生产级部署指南,涵盖安全配置、持久化、备份、监控等关键运维实践(官方无预构建镜像,需源码本地构建)。
3334 7
|
3月前
|
存储 弹性计算 缓存
阿里云 8 核 32G 云服务器收费标准、实例规格与价格参考
阿里云8核32G云服务器是主打1:4CPU与内存配比的中高端配置,仅在ECS云服务器系列中推出,无对应轻量应用服务器规格。这个配比让它能兼顾高并发计算和大内存需求,成为中大型企业核心业务的常用选择,同时也能满足部分有中高负载需求的开发者场景,2026年的收费标准会根据实例类型、计费方式、地域选择产生明显差异,优惠活动则覆盖新老用户和企业群体,整体定价和福利都围绕不同业务的实际使用需求做了细分。
266 13
|
3月前
|
弹性计算 人工智能 固态存储
2026阿里云服务器租用费用:包年包月和按小时收费标准与活动价格参考
2026年阿里云服务器租用费用涵盖多种实例规格及计费模式。轻量应用服务器2核2G低至38元/年(需抢购),ECS经济型e实例2核2G 3M带宽99元/年(新老同享续费不涨价),企业专享u1实例2核4G 5M带宽199元/年。GPU服务器如NVIDIA A10、V100等包年包月享4-5折优惠。价格由CPU内存、公网带宽及系统盘三部分组成,支持包年、包月、按小时计费,不同规格和时长折扣各异,实时价格以官网为准。
862 11
|
3月前
|
弹性计算
阿里云账号注册、实名认证及免费云产品申请流程
阿里云账号注册、实名认证及免费云产品申请流程 1. 打开阿里云官网。 2. 点击网页右上角的“注册”按钮。 3. 注册方式支持手机短信验证码注册、支付宝注册、淘宝注册和钉钉注册四种。 4. 若选择手机号注册,需输入手机号并点击“获取验证码”,随后将手机收到的6位数字验证码输入,即可完成注册。
666 6
|
3月前
|
弹性计算 编解码 NoSQL
从入门到精通!阿里云服务器ECS实例规格族机型分类,一文讲透不踩雷
本文系统解析阿里云ECS实例规格族命名规则(如g9i、c8a、u1等),详解通用型、计算型、内存型、高主频型、ARM架构u1及弹性裸金属等6大类适用场景,并提供5大避坑指南与快速选型表,助你精准选型、降本增效。
|
3月前
|
SQL 关系型数据库 数据库
阿里云RDS数据库介绍:产品功能、实例规格、收费标准餐参考
阿里云RDS是企业级云端数据库服务,支持MySQL、SQL Server、PostgreSQL等主流引擎,以高可用性、弹性扩展、安全防护及智能化管理为核心优势。提供倚天版、Serverless实例等规格,适配高性能计算与负载波动场景。功能涵盖全密态加密、自动扩缩容、集群高可用架构及自治运维服务。计费模式灵活,包括包年包月、按量付费、Serverless等,结合优惠活动降低企业成本。