为什么要对数值类型特征做归一化?

简介: 为什么要对数值类型特征做归一化?

给出一个场景

通过住户的居住面积和楼层来分析他们的居住舒适度,楼层的特征会在1-20(层)数值范围内,居住面积的特征会在30-200(平方米)数值范围内,那么根据这两种特征分析出来的数据居住面积会成为决定性更大的特征,这显然是不准确的,此时就需要我们进行特征归一化,使得各个特征处于同一个数值量级,然后再进行分析。


常用的特征归一化方法

1.最大最小归一化(Min-Max Scaling)

最大最小归一化对原始数据进行线性变换,使结果映射到[0,1]范围内,实现对原始数据的等比缩放。

image.png

2.零均值归一化(Z-Score Normalization)

零均值归一化会将原始数据映射到均值为0、标准差为1的分布上。

image.png

其中均值是μ ,标准差是σ 。


为什么要进行特征归一化?

借助随机梯度下降的例子来说明一下归一化的重要性。假设现在我们有两个特征x1、x2,x1的范围是[0,10],x2的范围是[0,4],在他们的学习速率相同的情况下x1的更新速度要大于x2,此时需要较多的迭代才能找到最优解;而当他们在同一数值范围内的时候,他们的更新速度就会变得更为一致,此时就更容易快速的通过梯度下降找到最优解。


用一张图片来说明一下(左边是归一化之前,右边是归一化之后):

image.png

实际应用中哪里需要归一化

可以看到上文中我用到了梯度下降来距离,可以看出归一化对梯度下降的影响是很大的,所以在实际应用中通过梯度下降求解的算法通常都是需要进行归一化的,常见的有线性回归、逻辑回归、支持向量机、神经网络等模型。


相关文章
|
Ubuntu
百度搜索:蓝易云【Ubuntu开机自启服务systemd.service配置教程】
现在,你的服务将在Ubuntu开机时自动启动,并在之后的启动中持续运行。记得根据你的实际需求修改 `your_service_name.service`文件中的相关信息。
663 2
|
安全 Java Spring
Spring Security权限注解
Spring Security权限注解
|
JSON Java Maven
SpringBoot整合gRPC踩坑回顾
本文回顾了作者在引入gRPC过程中遇到的挑战与解决方案。首先,由于SpringBoot 3.0暂不支持相关starter,导致初期预研不足,项目无法启动。接着,在编写代码时因对微服务架构理解不清,出现多个设计错误。最后,解决依赖冲突问题,特别是`protobuf-java-util`与现有依赖的冲突,通过Maven Helper插件有效排查并修复问题。此次经历加深了作者对微服务架构的理解,并为后续项目拆分打下基础。
696 2
|
存储 算法 数据挖掘
Pandas高级数据处理:数据压缩与解压
Pandas是数据分析的强大工具,尤其在处理大文件时,数据压缩技术至关重要。本文介绍如何使用Pandas进行数据压缩与解压,包括常见的gzip、bz2等格式。通过压缩技术,可以显著节省存储空间、加快传输速度并提高读写性能。文章还总结了常见问题及解决方案,如文件路径错误、不支持的压缩格式、内存不足和编码问题,帮助用户更高效地管理海量数据。
306 12
|
机器学习/深度学习 人工智能 算法
掌握技术分享的艺术:如何有效传递专业知识
在当今信息爆炸的时代,技术性文章的撰写和分享成为了知识传播的重要途径。然而,技术性文章往往因为其专业性和复杂性让许多读者望而却步。本文将探讨如何通过清晰的结构、浅显的语言和生动的例子来提高技术性文章的可读性和吸引力,从而更有效地传递专业知识。
|
存储 JSON 关系型数据库
MySQL 5.x和MySQL 8.x到底有什么区别?
本文详细对比了MySQL 5.x与MySQL 8.x的主要区别,包括存储引擎改进、性能提升、SQL语法增强(如窗口函数、CTE、JSON支持)、安全性和权限管理、并发及锁机制、InnoDB引擎增强、复制与高可用性等方面的显著差异。通过具体示例展示了8.x版本在企业级应用和高并发场景下的优越表现,建议有条件时尽早升级至MySQL 8.x以充分利用其新特性。
|
机器学习/深度学习 自然语言处理 数据可视化
时序预测的三种方式:统计学模型、机器学习、循环神经网络
时序预测是一类经典的问题,在学术界和工业界都有着广泛的研究和应用。甚至说,世间万物加上时间维度后都可抽象为时间序列问题,例如股票价格、天气变化等等。关于时序预测问题的相关理论也极为广泛,除了经典的各种统计学模型外,当下火热的机器学习以及深度学习中的循环神经网络也都可以用于时序预测问题的建模。今天,本文就来介绍三种方式的简单应用,并在一个真实的时序数据集上加以验证。
1272 0
时序预测的三种方式:统计学模型、机器学习、循环神经网络
|
机器学习/深度学习 数据采集 搜索推荐
机器学习中的特征工程:提升模型性能的关键步骤
【5月更文挑战第3天】特征工程是提升机器学习模型性能的关键,涉及从原始数据中提取、选择和创造特征。它能提高模型预测准确率,简化模型复杂度,增强泛化能力。常用技术包括特征选择(Filter、Wrapper、Embedded方法)、特征构造(组合、多项式、文本特征提取)和特征变换(标准化、归一化、离散化)。通过优化特征工程,可找到最佳特征组合,提升模型性能。
1291 6
|
存储 设计模式 Java
Java8 CompletableFuture异步编程-入门篇
Java8 CompletableFuture异步编程-入门篇
|
传感器 数据可视化 JavaScript
状态机(State Machines):理解、设计和应用有限状态机
状态机(State Machines)是一种强大的计算模型和设计工具,用于建模和控制有限状态的系统和行为。无论是在软件开发、自动化控制、游戏设计还是其他领域,状态机都发挥着关键作用。本博客将深入探讨状态机的概念、工作原理以及如何在不同应用中设计和应用它们。
10589 78

热门文章

最新文章