Feature Engineering 实战:Pandas + Scikit-learn的机器学习特征工程的完整代码示例

简介: 本文详解机器学习中至关重要的特征工程(Feature Engineering)全流程,涵盖EDA探索、缺失值处理(均值/众数/KNN填补)、类别编码(Label/One-Hot)、异常值检测(IQR/Winsorize)、特征缩放(Standard/MinMax/RobustScaler)、特征构造(日期解析、多项式、分箱)及特征选择(SelectKBest/RFE),并用Scikit-learn+Pandas构建端到端Pipeline,显著提升模型性能与鲁棒性。

Feature engineering 是机器学习 pipeline 里最关键的一环。算法再好,如果输入数据噪声大、不一致或者缺乏有意义的特征,模型表现都不会很好

这篇文章用 Pandas和 Scikit-learn,把一条完整的 feature engineering pipeline 做个完整的介绍

什么是 Feature Engineering

把原始数据转换成有意义的输入变量(特征),让机器学习模型表现更好——这就是 feature engineering。

Step 1 — 探索性数据分析(EDA)

动手做特征之前,先把数据看明白。

 import pandas as pd  
import numpy as np  

np.random.seed(42)  

df = pd.DataFrame({  
    'Age': [25, 30, np.nan, 40, 35, 120, 28],  
    'Salary': [50000, 60000, 55000, 80000, np.nan, 1000000, 62000],  
    'Gender': ['Male', 'Female', 'Female', np.nan, 'Male', 'Male', 'Female'],  
    'City': ['NY', 'LA', 'NY', 'SF', np.nan, 'LA', 'SF'],  
    'Experience': [1, 3, 2, 10, 7, 25, 4],  
    'Date': pd.date_range(start='2024-01-01', periods=7),  
    'Target': [0, 1, 0, 1, 0, 1, 0]  
})  

print(df)  
print(df.head())  
print(df.info())  
 print(df.describe())

检查缺失值

 print(df.isnull().sum())

查看分布

 import matplotlib.pyplot as plt  
 df.hist(figsize=(12, 10))  
 plt.show()

Step 2 — 缺失值填补

缺失值会拉低模型准确率。

均值 / 中位数填补

 from sklearn.impute import SimpleImputer  
 imputer = SimpleImputer(strategy='median')  
 df['Age'] = imputer.fit_transform(df[['Age']])

众数填补

 cat_imputer = SimpleImputer(strategy='most_frequent')  
 df['City'] = cat_imputer.fit_transform(df[['City']])

KNN 填补

 from sklearn.impute import KNNImputer  
 knn_imputer = KNNImputer(n_neighbors=5)  
 numeric_cols = df.select_dtypes(include=['int64', 'float64'])  
 df[numeric_cols.columns] = knn_imputer.fit_transform(numeric_cols)

Step 3 — 类别编码

模型只认数字,不认文本。

Label Encoding

 from sklearn.preprocessing import LabelEncoder  
 encoder = LabelEncoder()  
 df['Gender'] = encoder.fit_transform(df['Gender'])

One-Hot Encoding

 df = pd.get_dummies(df, columns=['City'], drop_first=True)

使用 Scikit-learn OneHotEncoder

 from sklearn.preprocessing import OneHotEncoder  
 ohe = OneHotEncoder(handle_unknown='ignore')

Step 4 — 异常值检测与处理

异常值会扭曲模型的学习过程。

用 IQR 检测异常值

 Q1 = df['Salary'].quantile(0.25)  
 Q3 = df['Salary'].quantile(0.75)  
 IQR = Q3 - Q1  
 lower = Q1 - 1.5 * IQR  
 upper = Q3 + 1.5 * IQR  
 outliers = df[(df['Salary'] < lower) | (df['Salary'] > upper)]  
 print(outliers)

移除异常值

 df = df[(df['Salary'] >= lower) & (df['Salary'] <= upper)]

Winsorization

 from scipy.stats.mstats import winsorize  
 df['Salary'] = winsorize(df['Salary'], limits=[0.05, 0.05])

Step 5 — 特征缩放与归一化

不同量纲的特征会影响模型表现。

StandardScaler

 from sklearn.preprocessing import StandardScaler  
 scaler = StandardScaler()  
 df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])

MinMaxScaler

 from sklearn.preprocessing import MinMaxScaler  
 minmax = MinMaxScaler()  
 df[['Age', 'Salary']] = minmax.fit_transform(df[['Age', 'Salary']])

RobustScaler

数据里有异常值时使用。

 from sklearn.preprocessing import RobustScaler  
 robust = RobustScaler()  
 df[['Age', 'Salary']] = robust.fit_transform(df[['Age', 'Salary']])

Step 6 — 特征构造与变换

构造出有意义的特征,往往是准确率拉升最明显的一步。

日期特征抽取

 df['Date'] = pd.to_datetime(df['Date'])  
 df['Year'] = df['Date'].dt.year  
 df['Month'] = df['Date'].dt.month  
 df['Day'] = df['Date'].dt.day

多项式特征

 from sklearn.preprocessing import PolynomialFeatures  
 poly = PolynomialFeatures(degree=2)  
 poly_features = poly.fit_transform(df[['Age', 'Experience']])

数值变量分箱

 df['Age_Group'] = pd.cut(  
     df['Age'],  
     bins=[0, 18, 35, 60, 100],  
     labels=['Teen', 'Young', 'Adult', 'Senior']  
 )

Step 7 — 特征选择

挑出真正重要的特征,可以减少过拟合,也能让模型跑得更快。

基于相关系数的选择

 import seaborn as sns  
 corr = df.corr(numeric_only=True)  
 sns.heatmap(corr, annot=True)

SelectKBest

 from sklearn.feature_selection import SelectKBest, f_classif  
 X = df.drop('Target', axis=1)  
 y = df['Target']  
 selector = SelectKBest(score_func=f_classif, k=5)  
 X_new = selector.fit_transform(X, y)

递归特征消除(RFE)

 from sklearn.feature_selection import RFE  
 from sklearn.linear_model import LogisticRegression  
 model = LogisticRegression()  
 rfe = RFE(model, n_features_to_select=5)  
 X_rfe = rfe.fit_transform(X, y)

Pipeline 把预处理自动化,也能降低数据泄露的风险。

完整 Pipeline 示例

 from sklearn.pipeline import Pipeline  
from sklearn.compose import ColumnTransformer  
from sklearn.preprocessing import StandardScaler, OneHotEncoder  
from sklearn.impute import SimpleImputer  
from sklearn.linear_model import LogisticRegression  
from sklearn.model_selection import train_test_split  

X = df.drop('Target', axis=1)  
y = df['Target']  

numeric_features = ['Age', 'Salary', 'Experience']  
categorical_features = ['Gender', 'City']  

numeric_transformer = Pipeline(steps=[  
    ('imputer', SimpleImputer(strategy='median')),  
    ('scaler', StandardScaler())  
])  

categorical_transformer = Pipeline(steps=[  
    ('imputer', SimpleImputer(strategy='most_frequent')),  
    ('onehot', OneHotEncoder(handle_unknown='ignore'))  
])  

preprocessor = ColumnTransformer(  
    transformers=[  
        ('num', numeric_transformer, numeric_features),  
        ('cat', categorical_transformer, categorical_features)  
    ]  
)  

model_pipeline = Pipeline(steps=[  
    ('preprocessor', preprocessor),  
    ('classifier', LogisticRegression(max_iter=1000))  
])  

X_train, X_test, y_train, y_test = train_test_split(  
    X, y, test_size=0.2, random_state=42  
)  

model_pipeline.fit(X_train, y_train)  

 print("Model trained successfully")

总结

Feature engineering 是机器学习项目能否成立的基石。干净、变换过、有意义的特征,往往胜过用劣质数据训练的复杂算法。

上面把这些步骤都做扎实,模型的准确率和稳健性都会上一个台阶。

在真实的机器学习项目里,feature engineering 往往比挑哪个模型更决定胜负。特征做得好,预测自然好。

https://avoid.overfit.cn/post/188a618a76db427191da88bb4a7aba5c

by Dhivakar

目录
相关文章
|
22天前
|
弹性计算 人工智能 缓存
阿里云轻量应用服务器2核2G38元、2核4G9.9元起:配置解析、适用场景与选购指南
2026年阿里云轻量应用服务器抢购活动提供两大核心配置:2核2G(200M峰值带宽+40G ESSD盘)抢购价38元/年,适合个人建站与入门学习;2核4G(200M带宽+50G ESSD盘)9.9元/月或199元/年,支持OpenClaw镜像一键部署AI助理。抢购每日10:00和15:00限时开抢,仅限新用户。本文同时对比了ECS 99计划(e实例99元/年、u1实例199元/年,新购续费同价至2027年3月),建议用户根据业务规模、AI需求及长期成本综合选型。
354 14
|
28天前
|
人工智能 自然语言处理 供应链
为什么 MCP 在协议层会有 prompt injection的问题:工具描述如何劫持 agent 上下文
MCP(Model Context Protocol)虽成AI Agent主流集成标准,但其将工具描述全量注入上下文的设计,导致“Context Poisoning”——恶意指令可借工具元数据污染LLM推理。OWASP将其列为LLM应用头号漏洞,2025年已致超10万站点遭袭。根本风险在于协议层信任模型缺失,非清洗不可用。
127 12
为什么 MCP 在协议层会有 prompt injection的问题:工具描述如何劫持 agent 上下文
|
2月前
|
监控 网络协议 网络安全
RUM 实战:用数据说话的 Android 网络性能优化
移动端网络性能直接影响用户体验,面临网络多样、设备碎片化、问题难复现、监控粗粒度等挑战。阿里云 RUM Android SDK 通过采集详细的网络资源指标,助力开发者精准定位性能瓶颈。
279 33
|
22天前
|
云安全 存储 弹性计算
【省钱必看】阿里云优惠券领取教程及使用指南
阿里云优惠券是上云省钱利器!本文详解代金券、满减券、折扣券三类优惠,覆盖通用及指定商品,并提供权益中心等四大领取入口,以及支付抵扣、账单自动抵扣等实用指南,助力大家低成本高效上云!
182 13
|
9天前
|
人工智能 定位技术 Go
从零搭建 Harness Engineering 框架 :Rule、Skill、Sub-Agent等工程落完整路径
Harness Engineering 是一套让AI在真实项目中稳定、可靠交付的工程系统,涵盖SPEC规范、Rule约束、Skill流程、Sub-Agent分工、Workflow编排、Script校验与MCP集成。它不追求模型更聪明,而是通过结构化机制消除随意性,实现可验证、可维护、可持续的AI协作开发。
278 1
从零搭建 Harness Engineering 框架 :Rule、Skill、Sub-Agent等工程落完整路径
|
2月前
|
存储 设计模式 缓存
为生产级 AI Agent 构建持久化记忆:五阶段流水线与四种设计模式
LLM Agent需持久化记忆以支撑连续对话、用户画像、知识沉淀与崩溃恢复。但满上下文方案成本高、延迟大、易出错。本文提出五阶段流水线(抽取→整合→存储→检索→遗忘)与四种记忆类型(工作/情景/语义/过程记忆),结合结构化状态+向量搜索等设计模式,实现高效、可控、可审计的生产级记忆系统。
677 9
为生产级 AI Agent 构建持久化记忆:五阶段流水线与四种设计模式
|
2月前
|
Ubuntu 算法 关系型数据库
Debian/Ubuntu 环境 PolarDB-X 单机版 DEB 包安装综合指南
本文整合阿里云文档,详解Ubuntu 18.04与Debian 10下PolarDB-X单机版安装:因官方仅提供RPM包,需用alien转DEB,但二者压缩格式不同(Ubuntu用zstd,Debian 10不支持),必须在目标系统本地转换,不可复用。含依赖处理、配置初始化及启动验证全流程。
557 19
|
2月前
|
人工智能 监控 Kubernetes
LoongCollector + ACS Agent Sandbox:构建 AI Agent 生产级运行平台
文章介绍了阿里云ACSAgentSandbox与LoongCollector协同构建的AIAgent生产级运行平台,通过沙箱隔离保障运行时安全,并以高性能、全链路可观测能力解决Agent行为不可预测和执行风险难题。
815 32
|
24天前
|
JSON 前端开发 测试技术
Kimi-k2.6 流式回包乱序后,我这样接入 ​D​М‌X​Α‌РΙ
kimi-k2.6 不止于聊天,其核心价值在于“可执行交付”:统一支持代码生成、长时程任务、Agent协作、文档→技能复用及多格式输出,具备工程级组合能力。它契合企业对“单模型多工位”的刚需——在研发、内容中台等场景中,稳定闭环完成需求拆解、编码、文档整理等多步任务。真正落地需依托DMXAPI网关实现标准化API集成,解决Web路径的不确定性,让模型能力成为可度量、可审计、可持续的生产基础执行层。(239字)