归一化用于文本分类中的特征向量计算

简介: 归一化,也即数据标准化。是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种归一化方法:一、min-max标准化(Min-Max Normalization)

归一化,也即数据标准化。是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种归一化方法:

一、min-max标准化(Min-Max Normalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。归一化映射如下:
f:xy=xxminxmaxxmin

二. 向量求模标准化
a⃗ =(1,2,3),计算得模为|a⃗ |=12+22+3212+22+32=3.742,则a⃗ new=(13.742,23.742,33.742).

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
18天前
|
人工智能 算法 搜索推荐
什么是余弦相似度算法
什么是余弦相似度算法
15 0
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
PyTorch使用一维卷积对时间序列数据分类
PyTorch使用一维卷积对时间序列数据分类
|
9月前
向量 (高维思考)
向量 (高维思考)
51 0
|
6月前
为什么进行线性回归前需要对特征进行离散化处理?
为什么进行线性回归前需要对特征进行离散化处理?
117 1
|
7月前
|
机器学习/深度学习 传感器 算法
多元分类预测 | Matlab 基于卷积支持向量机(CNN-SVM)分类预测
多元分类预测 | Matlab 基于卷积支持向量机(CNN-SVM)分类预测
|
8月前
|
机器学习/深度学习 存储 算法
特征向量(Eigenvector)
特征向量(Eigenvector)是在线性代数中与矩阵相对应的非零向量,其在矩阵乘法下只发生伸缩变化而不改变方向。特征向量与特征值(Eigenvalue)是成对出现的,特征值表示特征向量的伸缩因子。
133 1
|
9月前
|
自然语言处理 程序员 容器
向量学习之高维思考
向量学习之高维思考
|
机器学习/深度学习 数据采集 自然语言处理
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
186 0
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
|
机器学习/深度学习 数据可视化 BI
时域卷积网络TCN详解:使用卷积进行序列建模和预测(下)
时域卷积网络TCN详解:使用卷积进行序列建模和预测
1742 0
时域卷积网络TCN详解:使用卷积进行序列建模和预测(下)
|
机器学习/深度学习 并行计算 数据可视化
时域卷积网络TCN详解:使用卷积进行序列建模和预测(上)
时域卷积网络TCN详解:使用卷积进行序列建模和预测
470 0
时域卷积网络TCN详解:使用卷积进行序列建模和预测(上)