文档备案控制台

开发者社区大数据文章正文

归一化用于文本分类中的特征向量计算

2015-03-07 2026

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 归一化，也即数据标准化。是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种归一化方法：一、min-max标准化（Min-Max Normalization）

归一化，也即数据标准化。是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种归一化方法：

一、min-max标准化（Min-Max Normalization）
也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。归一化映射如下：
f:x→y=x−xminxmax−xmin

二. 向量求模标准化
如 a⃗ =(1,2,3),计算得模为|a⃗ |=12+22+3212+22+32√=3.742，则a⃗ new=(13.742,23.742,33.742).

文章标签：

云原生数据仓库 AnalyticDB PostgreSQL版

数据挖掘

相关实践学习

AnalyticDB PostgreSQL 企业智能数据中台：一站式管理数据服务资产

企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景；ADB PG推出全新企业智能数据平台，用以帮助用户一站式的管理企业数据服务资产，包括创建，管理，探索，监控等；助力企业在现有平台之上快速构建起数据服务资产体系

yichudu

目录

相关文章

阿里云E-MapReduce团队

|

存储机器学习/深度学习分布式计算

HDFS Federation简介

背景熟悉大数据的人应该都知道，HDFS 是一个分布式文件系统，它是基于谷歌的 GFS 思路实现的开源系统，它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的，如下：从上面可以看出 HDFS 的架构其实大致可以分为两层： Namespace：由目录，文件和数据块组成，支持常见的文件系统操作，例如创建，删除，修改和列出文件和目录。

阿里云E-MapReduce团队

3846 0 0

热烈的马

|

编解码计算机视觉索引

OpenCV使用单目标匹配从图像中选择最佳的匹配结果及查找重复图像实战（附Python源码）

OpenCV使用单目标匹配从图像中选择最佳的匹配结果及查找重复图像实战（附Python源码）

热烈的马

1303 0 0

探索云世界

|

8月前

|

编解码文字识别 API

InternVL3开源：7种尺寸覆盖文、图、视频处理，多模态能力扩展至工业图像分析

4月11日，OpenGVLab开源发布InternVL3系列多模态大模型，涵盖1B至78B共7个尺寸。相比InternVL 2.5，其在多模态感知与推理能力上表现更优，并新增工具使用、GUI代理等功能。得益于原生多模态预训练，文本性能超越Qwen2.5系列。

探索云世界

1202 0 0

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

Qwen2.5-VL-32B：阿里开源多模态核弹！32B模型吊打自家72B，数学推理封神

阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型，在数学推理、视觉问答等任务中超越前代72B版本，支持图像细粒度理解和复杂逻辑分析，已在HuggingFace开源。

蚝油菜花

1568 0 0

Qwen2.5-VL-32B：阿里开源多模态核弹！32B模型吊打自家72B，数学推理封神

古明地盆

|

缓存 Go C语言

使用 Python 的 ctypes 调用 C 的动态库

使用 Python 的 ctypes 调用 C 的动态库

古明地盆

810 0 1

使用 Python 的 ctypes 调用 C 的动态库

zzy的aly

|

测试技术

自动化测试项目学习笔记(五)：Pytest结合allure生成测试报告以及重构项目

本文介绍了如何使用Pytest和Allure生成自动化测试报告。通过安装allure-pytest和配置环境，可以生成包含用例描述、步骤、等级等详细信息的美观报告。文章还提供了代码示例和运行指南，以及重构项目时的注意事项。

zzy的aly

1499 1 1

自动化测试项目学习笔记(五)：Pytest结合allure生成测试报告以及重构项目

热爱技术的小郑

|

JavaScript 数据安全/隐私保护

如何在Vue组件中调用封装好的外部js文件方法

这篇文章介绍了如何在Vue组件中调用封装好的外部js文件方法，包括在Vue项目中全局引入外部js文件，并在组件中通过this.$myMethod()的方式调用外部js文件中定义的方法。

热爱技术的小郑

856 0 0

如何在Vue组件中调用封装好的外部js文件方法

糜终

|

算法安全 Go

Python与Go语言中的哈希算法实现及对比分析

Python与Go语言中的哈希算法实现及对比分析

糜终

375 0 0

编程达人

|

开发工具 git Docker

git：github的tag标签基本使用和自动发布软件包

git：github的tag标签基本使用和自动发布软件包

编程达人

676 0 0

git：github的tag标签基本使用和自动发布软件包

小小工匠

|

Linux

Linux - 借助 inotifywait，轻松实现 Linux 文件/目录事件监听

Linux - 借助 inotifywait，轻松实现 Linux 文件/目录事件监听

小小工匠

1492 0 0

热门文章

最新文章

带你领略基于ELK+Kafka的日志分析系统和Elasticsearch运维实践

预期违背理论（expectancy violations theory）

阿里巴巴如何远程办公！这些工具都能帮你

Kubernetes Meetup深秋成都行 Ghostcloud精灵云获好评如云

MySQL 小心使用 replace into

EB 级系统空中换引擎：阿里调度执行框架如何全面升级？

[LeetCode] Longest Palindromic Subsequence 最长回文子序列

云计算的真正价值不仅仅是节省开支......

《C++语言基础》实践项目——继承与派生

HTML DOM Attribute 对象

OpenClaw 是什么？OpenClaw 能干什么？OpenClaw 部署保姆级图文教程及常见问题汇总解答

仿真微信软件，模拟交互INTERCAL实现

短网址还原在线工具核心JS实现

银行转账模拟器免费，数值传输计算PL/SQL工具

短网址还原在线工具分享

网银模拟生成器，模拟数据生成器AngelScript引擎

假的银行卡余额软件，数值模拟与逻辑构建Blockly

阿里云OpenClaw部署实操教程：轻量应用服务器+百炼免费大模型

支付宝余额修改器，数值注入ShaderLab处理器

网银模拟器app下载，数值计算与协议解析Zig

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

狂揽7.5k星！这款开源API网关彻底解放开发者：一键聚合GPT-4、Suno、Midjourney，还能在线充值！