机器学习特征工程:分类变量的数值化处理方法

简介: 分类特征编码是机器学习关键却常被低估的环节。Ordinal Encoding适用于有序类别(如学历),One-Hot Encoding消除顺序假象但易致维度爆炸,Target Encoding则通过目标均值处理高基数特征,需配合平滑与交叉验证防过拟合与数据泄露。

编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类特征,必须转成数值才能输入到模型中。

那么问题来了:为什么不直接把 Red 编成 1,Blue 编成 2?这个做法看起来简单粗暴,但其实藏着大坑。下面用一个小数据集来说明。

数据集概述

 Feature            | Description  
-------------------|----------------------------------------------------------  
customer_id        | Unique customer identifier  
gender             | Male or Female  
education_level    | High School → Associate → Bachelor's → Master's → PhD  
employment_status  | Full-time, Part-time, Self-employed, Unemployed  
city               | Customer's city (50+ US cities)  
product_category   | Electronics, Clothing, Books, Sports, Home & Garden, Beauty, Food & Beverage  
payment_method     | Credit Card, Debit Card, PayPal, Cash  
customer_tier      | Bronze → Silver → Gold → Platinum  
satisfaction_level | Dissatisfied → Neutral → Satisfied → Very Satisfied  
credit_score_range | Poor → Fair → Good → Very Good → Excellent  
purchase_amount    | Purchase amount in USD  
 will_return        | Yes or No (target variable)

Ordinal Encoding

Ordinal Encoding 思路很简单:给每个类别分配一个数字,但是模型会把这些数字当作有序的。

假设对

payment_method

做编码:Cash = 1,PayPal = 2。模型会认为 Cash < PayPal,仿佛 PayPal 比 Cash "更好" 或 "更大"。但支付方式之间根本没有这种大小关系因为它们只是不同的选项而已。

什么时候 Ordinal Encoding 才合适?当数据本身就存在真实的顺序关系时。比如

education_level

:High School < Associate < Bachelor's < Master's < PhD。这是客观存在的递进关系,用数字表示完全没问题,模型的理解也是对的。

所以 Ordinal Encoding 的使用场景很明确:只用于那些排名确实有意义的特征。

 from sklearn.preprocessing import OrdinalEncoder  
ordEnc = OrdinalEncoder()  
print(ordEnc.fit_transform(data[["education_level"]])[:5])  

# Output  
"""  
[[1.]  
 [2.]  
 [3.]  
 [4.]  
 [2.]]  
 """

One-Hot Encoding

One-Hot Encoding 换了个思路:不用数字而是给每个类别创建一列。

payment_method

有 4 个值,就变成 4 列,每行只有一个位置是 1,其余全是 0。

 | payment_cash | payment_credit_card | payment_debit_card | payment_paypal |  
 |--------------|---------------------|--------------------|----------------|  
 | 1            | 0                   | 0                  | 0              |  
 | 0            | 1                   | 0                  | 0              |  
 | 0            | 0                   | 1                  | 0              |  
 | 0            | 0                   | 0                  | 1              |

这样做的好处是消除了虚假的顺序关系,所有类别被平等对待和线性模型配合得也很好。

那么代价是什么?维度会膨胀。

customer_tier

payment_method

各 4 个值,合起来就是 8 列。如果遇到城市这种特征,50 多个类别直接炸成 50 多列,维度灾难就来了。

 from sklearn.preprocessing import OneHotEncoder  
oneEnc = OneHotEncoder()  
print(oneEnc.fit_transform(data[["customer_tier", "payment_method"]]).toarray()[:5])  

[#output](#output)   
"""  
[[0. 1. 0. 0. 0. 1. 0. 0.]  
 [0. 0. 0. 1. 0. 0. 1. 0.]  
 [0. 0. 1. 0. 0. 0. 0. 1.]  
 [0. 1. 0. 0. 0. 1. 0. 0.]  
 [1. 0. 0. 0. 1. 0. 0. 0.]]  
 """

Target Encoding

面对高基数特征(比如 City 有 50 多个值)One-Hot Encoding 会把特征空间撑得太大,Target Encoding 的做法是:用每个类别对应的目标变量均值来替换。也叫 Mean Encoding。

举个例子,目标变量是

will_return

(Yes = 1,No = 0):

 | City      | will_return |  
|-----------|-------------|  
| Austin    | 1           |  
| Austin    | 1           |  
| New York  | 1           |  
| New York  | 0           |  
| New York  | 0           |  
| New York  | 0           |  
 | New York  | 1           |

计算每个城市的目标均值:Austin → (1 + 1) / 2 = 1.0,New York → (1 + 0 + 0 + 0 + 1) / 5 = 0.4,这样得到的编码结果就是:

 | City     | Encoded Value |  
 |----------|----------------|  
 | Austin   | 1.0            |  
 | New York | 0.4            |

这里有一个坑,Austin 只出现了 2 次而且刚好都是正例,编码值直接变成 1.0。模型可能会 "学到" 一个规律:看到 Austin 就预测 will_return = Yes。

但这个 "规律" 完全是数据量不足造成的假象。样本太少均值就很不可靠。

Smoothing 的思路是把类别均值往全局均值方向 "拉" 一拉。公式:

 Encoded Value = (w * Category Mean) + ((1 - w) * Global Mean)

其中 Category Mean 是该类别的目标均值Global Mean 是整个数据集的目标均值,w 是一个和样本量相关的权重。样本越少w 越小,编码值就越接近全局均值;样本越多类别自己的均值就越占主导。这能有效抑制小样本带来的过拟合。

另一个问题就是 Data Leakage。如果用全量数据计算编码值再把这个编码喂给模型,模型等于直接 "看到了" 答案的统计信息。比如模型发现 City = 0.34 对应的样本大概率是 will_return = Yes,那它干脆走捷径,不从其他特征里学东西了。

所以就要引入交叉验证,以 5 折为例:把数据分成 5 份,对第 1 份的数据,用第 2 到第 5 份来计算编码;对第 2 份的数据,用第 1、3、4、5 份来计算编码;以此类推。每个样本的编码值都来自于它 "没见过" 的数据,泄露就切断了。

但是副作用是同一个城市在不同折里的编码值会略有差异:New York 在 Fold 1 里可能是 0.50,在 Fold 2 里是 0.45。但这反而是好事,这样可以让模型被迫学习更一般化的模式而不是死记某个精确数值。

Target Encoding 的优点:避免维度爆炸,适合高基数特征,还能把目标变量的统计信息编进去。

但用的时候得小心:必须加 Smoothing 防止小样本过拟合,必须用交叉验证防止数据泄露。

 from sklearn.preprocessing import TargetEncoder  

data["will_return_int"] = data["will_return"].map({"Yes": 1, "No": 0})  
tarEnc = TargetEncoder(smooth="auto", cv=5)  # Those are the default value  
print(data[["city"]][:5])  
print(tarEnc.fit_transform(data[["city"]], data["will_return_int"])[:5])  

"""  
  city  
0  Houston  
1  Phoenix  
2  Chicago  
3  Phoenix  
4  Phoenix  

[[0.85364466]  
 [0.69074308]  
 [0.65024828]  
 [0.74928653]  
 [0.81359495]]  
 """

总结

三种编码方法各有适用场景,选择取决于特征本身的性质。

实际操作中可以这样判断:特征有天然顺序就用 Ordinal Encoding;没有顺序、类别数量也不多就用 One-Hot Encoding;类别太多就上 Target Encoding,记得配合 Smoothing 和交叉验证。

真实项目里,一个数据集往往会同时用到这三种方法。

https://avoid.overfit.cn/post/eeabb03fba684a88a6ccce132f4852b0

作者: adham ayman

目录
相关文章
|
17天前
|
机器学习/深度学习 算法
标签脏了,模型再牛也白搭:聊聊训练样本标签质量的评估与修正(把信噪比狠狠干上去)
标签脏了,模型再牛也白搭:聊聊训练样本标签质量的评估与修正(把信噪比狠狠干上去)
263 14
|
1月前
|
人工智能 测试技术
LLM创造力可以被度量吗?一个基于提示词变更的探索性实验
本文探讨提示词工程为何仍是“玄学”,并通过实验证明:加入明确指令(如“Be as creative as possible”)可显著、可量化地提升LLM输出多样性,效果甚至超过调高温度。研究以embedding距离为代理指标,覆盖13个主流模型,揭示提示词迭代可度量、可预测,为LLM应用从经验走向工程化提供新路径。
108 17
LLM创造力可以被度量吗?一个基于提示词变更的探索性实验
|
1月前
|
运维 Kubernetes 安全
CNI 不是装完就完事:Calico、Cilium、Weave,选错一个,集群网络天天加班
CNI 不是装完就完事:Calico、Cilium、Weave,选错一个,集群网络天天加班
184 8
|
17天前
|
人工智能 JavaScript 测试技术
2026年OpenClaw实战宝典:云上及本地部署极速OpenClaw+30个高价值skill案例
很多用户安装完OpenClaw后,常会陷入“工具在手,不知何用”的困境。这款开源AI助理的核心价值远不止简单对话,其真正威力在于自动化任务执行、多场景协作与全流程生产力提升。2026年,OpenClaw生态已沉淀30个经用户验证的真实用例,覆盖开发、运营、运维、家庭管理等多元场景。本文将详解2026年阿里云OpenClaw超简单部署流程与本地私有化部署方案,深度拆解6个脑洞大开的核心用例,附带完整配置模板、代码命令与避坑指南,让你从“安装完成”直接跃升至“高效实战”。
816 13
|
18天前
|
JavaScript 搜索推荐 前端开发
从提示工程转向 上下文工程,6种让LLM在生产环境中稳定输出的技术
本文系统阐述“上下文工程”(Context Engineering)——生产级AI系统的核心能力。它不依赖提示词优化,而是通过选择性检索、上下文压缩、层次化布局、动态查询重构、记忆注入与工具感知六大技术,精准控制模型在运行时“看到什么、何时看、如何看”,从而根治幻觉、提升准确率、降低Token消耗,让小模型也能稳定输出高质量结果。
183 16
从提示工程转向 上下文工程,6种让LLM在生产环境中稳定输出的技术
|
3月前
|
机器学习/深度学习 存储 安全
别只会One-Hot了!20种分类编码技巧让你的特征工程更专业
分类变量需编码为数字才能被模型处理。本文详解20种编码方法,从基础的独热、序数编码到高级的目标编码、CatBoost、WOE等,涵盖适用场景与代码示例,助你提升模型性能,避免泄露与过拟合,是特征工程中不可或缺的实用指南。
246 14
别只会One-Hot了!20种分类编码技巧让你的特征工程更专业
|
1月前
|
人工智能 搜索推荐 安全
企业建站如何选择网站建设平台或CMS建站系统
截至2026年1月,中国网站超460万个。建站首选SAAS(如阿里云/腾讯云建站)或成熟CMS(如PageAdmin、PHPCMS、Ecshop),避免使用无维护的个人开源系统。重内容、轻排名,AI时代网站是品牌知识入口,需持续更新优质内容。(239字)
392 12
|
2月前
|
人工智能 应用服务中间件 API
刚刚,阿里云上线Clawdbot全套云服务!
阿里云上线Moltbot(原Clawdbot)全套云服务,支持轻量服务器/无影云电脑一键部署,可调用百炼平台百余款千问模型,打通iMessage与钉钉消息通道,打造开箱即用的AI智能体助手。
5395 48
刚刚,阿里云上线Clawdbot全套云服务!
|
1月前
|
人工智能 NoSQL Redis
LangGraph 入门:用图结构构建你的第一个多智能体工作流
LangGraph 是面向多智能体系统的图编排框架,以有向状态图替代线性链式调用。通过节点(智能体)、边(条件/静态跳转)和类型化共享状态三者解耦,天然支持分支、循环、并行与汇合;内置检查点、原子状态更新与Reducer机制,保障一致性、可调试性与容错恢复能力。
1229 0
|
4天前
|
人工智能 安全 Linux
怎么养出聪明“龙虾AI”?OpenClaw 阿里云/本地部署+核心SKill清单+安全防护+常见问题解答(FAQ,避坑关键)
“部署完OpenClaw,却发现它‘啥也不会’?网页关了不知道怎么重开?担心安装技能踩安全坑?”——这是2026年众多“龙虾养殖户”(OpenClaw用户昵称)的高频困惑。正如参考文章作者所言,OpenClaw自带的基础能力有限,就像“有初始大脑但缺乏工具的AI”,想要让它真正“活起来”,必须通过安装Skills(技能)拓展功能;同时,技能社区缺乏审查机制,安全风险也需重点防范。
275 16

热门文章

最新文章