机器学习建模高级用法!构建企业级AI建模流水线 ⛵

简介: 机器学习建模高级用法!构建企业级AI建模流水线,不同环节有序地构建成工作流(pipeline)。本文以『客户流失』为例,讲解如何构建 SKLearn 流水线。

💡 作者: 韩信子@ ShowMeAI
📘 机器学习实战系列: https://www.showmeai.tech/tutorials/41
📘 本文地址https://www.showmeai.tech/article-detail/287
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏 ShowMeAI查看更多精彩内容

机器学习与流水线(pipeline)简介

我们知道机器学习应用过程包含很多步骤,如图所示『标准机器学习应用流程』,有数据预处理、特征工程、模型训练、模型迭代优化、部署预估等环节。

在简单分析与建模时,可以对每个板块进行单独的构建和应用。但在企业级应用中,我们更希望机器学习项目中的不同环节有序地构建成工作流(pipeline),这样不同流程步骤更易于理解、可重现、也可以防止数据泄漏等问题。

常用的机器学习建模工具,比如 Scikit-Learn,它的高级功能就覆盖了 pipeline,包含转换器、模型和其他模块等。

关于 Scikit-Learn 的应用方法可以参考 ShowMeAI 📘 机器学习实战教程 中的文章 📘 SKLearn最全应用指南,也可以前往 Scikit-Learn 速查表 获取高密度的知识点清单。

但是,SKLearn 的简易用法下,如果我们把外部工具库,比如处理数据样本不均衡的 imblearn合并到 pipeline 中,却可能出现不兼容问题,比如有如下报错:

TypeError: All intermediate steps should be transformers and implement fit and transform or be the string ‘passthrough’ ‘SMOTE()’ (type <class ‘imblearn.over_sampling._smote.base.SMOTE’>) doesn’t

本文以『客户流失』为例,讲解如何构建 SKLearn 流水线,具体地说包含:

  • 构建一个流水线(pipeline) ,会覆盖到 Scikit-Learn、 imblearn 和 feature-engine 工具的应用
  • 在编码步骤(例如 one-hot 编码)之后提取特征
  • 构建特征重要度图

最终解决方案如下图所示:在一个管道中组合来自不同包的多个模块。

我们下面的方案流程,覆盖了上述的不同环节:

  • 步骤 ①:数据预处理:数据清洗
  • 步骤 ②:特征工程:数值型和类别型特征处理
  • 步骤 ③:样本处理:类别非均衡处理
  • 步骤 ④:逻辑回归、xgboost、随机森林 及 投票集成
  • 步骤 ⑤:超参数调优与特征重要度分析

💡 步骤0:准备和加载数据

我们先导入所需的工具库。

# 数据处理与绘图
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Sklearn工具库
from sklearn.model_selection import train_test_split, RandomizedSearchCV, RepeatedStratifiedKFold, cross_validate

# pipeline流水线相关
from sklearn import set_config
from sklearn.pipeline import make_pipeline, Pipeline
from imblearn.pipeline import Pipeline as imbPipeline
from sklearn.compose import ColumnTransformer, make_column_selector
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler

# 常数列、缺失列、重复列 等处理
from feature_engine.selection import DropFeatures, DropConstantFeatures, DropDuplicateFeatures

# 非均衡处理、样本采样
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler

# 建模模型
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from sklearn.metrics import roc_auc_score
from sklearn.inspection import permutation_importance
from scipy.stats import loguniform

# 流水线可视化
set_config(display="diagram")

如果你之前没有听说过 imblearn 和 feature-engine 工具包,我们做一个简单的说明:

  • 📘Imblearn 可以处理类别不平衡的分类问题,内置不同的采样策略
  • 📘feature-engine 用于特征列的处理(常数列、缺失列、重复列 等)

数据集:报纸订阅用户流失

我们这里用到的数据集来自 Kaggle 比赛 Newspaper churn。数据集包括15856条现在或曾经订阅该报纸的个人记录。

🏆 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『 实战』,或者点击 这里 获取本文 [[14] 机器学习建模应用流水线 pipeline]( https://www.showmeai.tech/article-detail/287)Newspaper churn 数据集

ShowMeAI官方GitHubhttps://github.com/ShowMeAI-Hub

数据集包含人口统计信息,如代表家庭收入的HH信息、房屋所有权、小孩信息、种族、居住年份、年龄范围、语言;地理信息如地址、州、市、县和邮政编码。另外,用户选择的订阅期长,以及与之相关的收费数据。该数据集还包括用户的来源渠道。最后会有字段表征客户是否仍然是我们的订户(是否流失)。

数据预处理与切分

我们先加载数据并进行预处理(例如将所有列名都小写并将目标变量转换为布尔值)。

# 读取数据
data = pd.read_excel("NewspaperChurn new version.xlsx")

#数据预处理
data.columns = [k.lower().replace(" ", "_") for k in data.columns]
data.rename(columns={'subscriber':'churn'}, inplace=True)
data['churn'].replace({'NO':False, 'YES':True}, inplace=True)

# 类型转换
data[data.select_dtypes(['object']).columns] = data.select_dtypes(['object']).apply(lambda x: x.astype('category'))

# 取出特征列和标签列
X = data.drop("churn", axis=1)
y = data["churn"]

# 训练集验证集切分
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)

预处理过后的数据应如下所示:

💡 步骤1:数据清洗

我们构建的 pipeline 流程的第一步是『数据清洗』,删除对预测没有帮助的列(比如 id 类字段,恒定值字段,或者重复的字段)。

# 步骤1:数据清洗+字段处理
ppl = Pipeline([
    ('drop_columns', DropFeatures(['subscriptionid'])),
    ('drop_constant_values', DropConstantFeatures(tol=1, missing_values='ignore')),
    ('drop_duplicates', DropDuplicateFeatures())
])

上面的代码创建了一个 pipeline 对象,它包含 3 个步骤:drop_columnsdrop_constant_valuesdrop_duplicates

这些步骤是元组形态的,第一个元素定义了步骤的名称(如 drop_columns),第二个元素定义了转换器(如 DropFeatures())。

这些简单的步骤,大家也可以通过 pandas 之类的外部工具轻松完成。 但是,我们在组装流水线时的想法是在pipeline中集成尽可能多的功能。

💡 步骤2:特征工程与数据变换

在前面剔除不相关的列之后,我们接下来做一下缺失值处理和特征工程。 可以看到数据集包含不同类型的列(数值型和类别型 ),我们会针对这两个类型定义两个独立的工作流程。

关于特征工程,可以查看ShowMeAI 📘 机器学习实战教程 中的文章 📘 机器学习特征工程最全解读
# 数据处理与特征工程pipeline

ppl = Pipeline([
    # ① 剔除无关列
    ('drop_columns', DropFeatures(['subscriptionid'])),
    ('drop_constant_values', DropConstantFeatures(tol=1, missing_values='ignore')),
    ('drop_duplicates', DropDuplicateFeatures()),
    
    # ② 缺失值填充与数值/类别型特征处理
    ('cleaning', ColumnTransformer([
        # 2.1: 数值型字段缺失值填充与幅度缩放
        ('num',make_pipeline(
            SimpleImputer(strategy='mean'),
            MinMaxScaler()),
         make_column_selector(dtype_include='int64')
        ),
        # 2.2:类别型字段缺失值填充与独热向量编码
        ('cat',make_pipeline(
            SimpleImputer(strategy='most_frequent'),
            OneHotEncoder(sparse=False, handle_unknown='ignore')),
         make_column_selector(dtype_include='category')
        )])
    )
])

添加一个名为clearning 的步骤,对应一个 ColumnTransformer 对象。

ColumnTransformer 中,设置了两个新 pipeline:一个用于处理数值型,一个用于类别型处理。 通过 make_column_selector 函数确保每次选出的字段类型是对的。

这里使用 dtype_include 参数选择对应类型的列,这个函数也可以提供列名列表或正则表达式来选择。

💡 步骤3:类别非均衡处理(数据采样)

在『用户流失』和『欺诈识别』这样的问题场景中,一个非常大的挑战就是『类别不平衡』——也就是说,流失用户相对于非流失用户来说,数量较少。

这里我们会采用到一个叫做 im`blearn` 的工具库来处理类别非均衡问题,它提供了一系列数据生成与采样的方法来缓解上述问题。 本次选用 SMOTE 采样方法来对少的类别样本进行重采样。

SMOTE类别非均衡处理

添加 SMOTE 步骤后的 pipeline 如下:

# 总体处理pipeline

ppl = Pipeline([
    # ① 剔除无关列
    ('drop_columns', DropFeatures(['subscriptionid'])),
    ('drop_constant_values', DropConstantFeatures(tol=1, missing_values='ignore')),
    ('drop_duplicates', DropDuplicateFeatures()),
    
    # ② 缺失值填充与数值/类别型特征处理
    ('cleaning', ColumnTransformer([
        # 2.1: 数值型字段缺失值填充与幅度缩放
        ('num',make_pipeline(
            SimpleImputer(strategy='mean'),
            MinMaxScaler()),
         make_column_selector(dtype_include='int64')
        ),
        # 2.2:类别型字段缺失值填充与独热向量编码
        ('cat',make_pipeline(
            SimpleImputer(strategy='most_frequent'),
            OneHotEncoder(sparse=False, handle_unknown='ignore')),
         make_column_selector(dtype_include='category')
        )])
    ),
    # ③ 类别非均衡处理:重采样
    ('smote', SMOTE())
])

pipeline 特征校验

在最终构建集成分类器模型之前,我们查看一下经过 pipeline 处理得到的特征名称和其他信息。

pipeline 对象提供了一个名为 get_feature_names_out() 的函数,我们可以通过它获取特征名称。但在使用它之前,我们必须在数据集上拟合。 由于第 ③ 步 SMOTE 处理仅关注我们的标签 y 数据,我们暂时忽略它并专注于第 ① 和 ② 步。

# 拟合数据,获取pipeline构建的特征名称和信息
ppl_fts = ppl[0:4]
ppl_fts.fit(X_train, y_train)
features = ppl_fts.get_feature_names_out()
pd.Series(features)

结果如下所示:

0                    num__year_of_residence
1                             num__zip_code
2                       num__reward_program
3        cat__hh_income_$  20,000 - $29,999
4        cat__hh_income_$  30,000 - $39,999
                        ...                
12122               cat__source_channel_TMC
12123            cat__source_channel_TeleIn
12124           cat__source_channel_TeleOut
12125               cat__source_channel_VRU
12126          cat__source_channel_iSrvices
Length: 12127, dtype: object

由于独热向量编码,许多带着 cat_ 开头(代表 category)的特征名已被创建。

如果大家想得到上面流程图一样的 pipeline 可视化,只需在代码中做一点小小的修改,在调用 pipeline 对象之前在您的代码中添加 set_config(display="diagram")

💡 步骤4:构建集成分类器

下一步我们训练多个模型,并使用功能强大的集成模型(投票分类器)来解决当前问题。

关于这里使用到的逻辑回归、随机森林和 xgboost 模型,大家可以在 ShowMeAI 的 📘 图解机器学习算法教程 中看到详细的原理讲解。
# 逻辑回归模型
lr = LogisticRegression(warm_start=True, max_iter=400)
# 随机森林模型
rf = RandomForestClassifier()
# xgboost
xgb = XGBClassifier(tree_method="hist", verbosity=0, silent=True)
# 用投票器进行集成
lr_xgb_rf = VotingClassifier(estimators=[('lr', lr), ('xgb', xgb), ('rf', rf)], 
                             voting='soft')

定义集成模型后,我们也把它集成到我们的 pipeline 中。

# 总体处理pipeline

ppl = imbPipeline([
    # ① 剔除无关列
    ('drop_columns', DropFeatures(['subscriptionid'])),
    ('drop_constant_values', DropConstantFeatures(tol=1, missing_values='ignore')),
    ('drop_duplicates', DropDuplicateFeatures()),
    
    # ② 缺失值填充与数值/类别型特征处理
    ('cleaning', ColumnTransformer([
        # 2.1: 数值型字段缺失值填充与幅度缩放
        ('num',make_pipeline(
            SimpleImputer(strategy='mean'),
            MinMaxScaler()),
         make_column_selector(dtype_include='int64')
        ),
        # 2.2:类别型字段缺失值填充与独热向量编码
        ('cat',make_pipeline(
            SimpleImputer(strategy='most_frequent'),
            OneHotEncoder(sparse=False, handle_unknown='ignore')),
         make_column_selector(dtype_include='category')
        )])
    ),
    # ③ 类别非均衡处理:重采样
    ('smote', SMOTE()),
    # ④ 投票器集成
    ('ensemble', lr_xgb_rf)
])

大家可能会注意到,我们在第1行中使用到的 Pipeline 替换成了 imblearn 的 imbPipeline 。这是很关键的一个处理,如果我们使用 SKLearn 的 pipeline,在拟合时会出现文初提到的错误:

TypeError: All intermediate steps should be transformers and implement fit and transform or be the string 'passthrough' 'SMOTE()' (type <class 'imblearn.over_sampling._smote.base.SMOTE'>) doesn't

到这一步,我们就把基本的 pipeline 流程构建好了。

💡 步骤5:超参数调整和特征重要性

超参数调优

我们构建的整条建模流水线中,很多组件都有超参数可以调整,这些超参数会影响最终的模型效果。对 pipeline 如何进行超参数调优呢,我们选用随机搜索 RandomizedSearchCV 对超参数进行调优,代码如下。

关于搜索调参的详细原理知识,大家可以查看 ShowMeAI 在文章 📘 网络优化: 超参数调优、正则化、批归一化和程序框架 中的介绍。

大家特别注意代码中的命名规则。

# 超参数调优
params = {
    'ensemble__lr__solver': ['newton-cg', 'lbfgs', 'liblinear'],
    'ensemble__lr__penalty': ['none', 'l1', 'l2', 'elasticnet'],
    'ensemble__lr__C': loguniform(1e-5, 100),
    'ensemble__xgb__learning_rate': [0.1],
    'ensemble__xgb__max_depth': [7, 10, 15, 20],
    'ensemble__xgb__min_child_weight': [10, 15, 20, 25],
    'ensemble__xgb__colsample_bytree': [0.8, 0.9, 1],
    'ensemble__xgb__n_estimators': [300, 400, 500, 600],
    'ensemble__xgb__reg_alpha': [0.5, 0.2, 1],
    'ensemble__xgb__reg_lambda': [2, 3, 5],
    'ensemble__xgb__gamma': [1, 2, 3],
    'ensemble__rf__max_depth': [7, 10, 15, 20],
    'ensemble__rf__min_samples_leaf': [1, 2, 4],
    'ensemble__rf__min_samples_split': [2, 5, 10],
    'ensemble__rf__n_estimators': [300, 400, 500, 600],
}

# 随机搜索调参
rsf = RepeatedStratifiedKFold(random_state=42)
clf = RandomizedSearchCV(ppl, params,scoring='roc_auc', verbose=2, cv=rsf)
clf.fit(X_train, y_train)

# 输出信息
print("Best Score: ", clf.best_score_)
print("Best Params: ", clf.best_params_)
print("AUC:", roc_auc_score(y_val, clf.predict(X_val)))

解释一下上面代码中的超参数命名:

  • 第一个参数( ensemble__ ):我们的 VotingClassifier 的名称
  • 第二个参数( lr__ ):我们集成中使用的模型的名称
  • 第三个参数( solver ):模型相关超参数的名称

因为这里是类别不平衡场景,我们使用重复分层 k-fold ( RepeatedStratifiedKFold)。

超参数调优这一步也不是必要的,在简单的场景下,大家可以直接使用默认参数,或者在定义模型的时候敲定超参数。

特征重要度图

为了不让我们的模型成为黑箱模型,我们希望对模型做一些解释,其中最重要的是归因分析,我们希望了解哪些特征是重要的,这里我们对特征重要度进行绘制。

# https://inria.github.io/scikit-learn-mooc/python_scripts/dev_features_importance.html
# 绘制特征重要度
def plot_feature_importances(perm_importance_result, feat_name):
    """ bar plot the feature importance """
    fig, ax = plt.subplots()


    indices = perm_importance_result['importances_mean'].argsort()
    plt.barh(range(len(indices)),
             perm_importance_result['importances_mean'][indices],
             xerr=perm_importance_result['importances_std'][indices])
    ax.set_yticks(range(len(indices)))
    ax.set_title("Permutation importance")
    
    tmp = np.array(feat_name)
    _ = ax.set_yticklabels(tmp[indices])


# 获取特征名称
ppl_fts = ppl[0:4]
ppl_fts.fit(X_train, y_train)
features = ppl_fts.get_feature_names_out()


# 用乱序法进行特征重要度计算和排列,以及绘图
perm_importance_result_train = permutation_importance(clf, X_train, y_train, random_state=42)
plot_feature_importances(perm_importance_result_train, features)

上述代码运行后的结果图如下,我们可以看到特征 hh_income 在预测中占主导地位。 由于这个特征其实是可以排序的(比如 30-40k 比 150-175k 要小),我们可以使用不同的编码方式(比如使用 LabelEncoding 标签编码)。

以上就是完整的机器学习流水线构建过程,大家可以看到,pipeline 可以把不同的环节集成在一起,一次性运行与调优,代码和流程都更为简洁紧凑,效率也更高。

参考资料

e9190f41b8de4af38c8a1a0c96f0513b~tplv-k3u1fbpfcp-zoom-1.image

目录
相关文章
|
9月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1364 109
|
9月前
|
Kubernetes Devops 应用服务中间件
基于 Azure DevOps 与阿里云 ACK 构建企业级 CI/CD 流水线
本文介绍如何结合阿里云 ACK 与 Azure DevOps 搭建自动化部署流程,涵盖集群创建、流水线配置、应用部署与公网暴露,助力企业高效落地云原生 DevOps 实践。
1020 2
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
665 0
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
574 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
11月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
1298 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
12月前
|
存储 人工智能 运维
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
547 6
|
12月前
|
人工智能 监控 测试技术
云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!
|
12月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL消息传递接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。
|
12月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。