分类数据 EDA 实战:如何发现隐藏的层次结构

简介: 本文揭示EDA核心:分类变量(如city、category)表面扁平,实则藏有收入层级、价值模式、时空分布等隐藏层次结构。通过频率vs价值分析、嵌套交叉、时间拆解与交互可视化,教你用Python挖掘真实结构,避免被数据表象欺骗,提升分析深度与建模质量。

探索性数据分析(EDA)的本质不是画图和算统计量,而是不被自己的数据欺骗。

分类列是最容易出问题的地方。

city

category

product

department

role

customer_type

——这些列看起来很简单,跑个

value_counts()

画个柱状图搞定了。

其实分类变量往往藏着隐藏的层次结构。这些关系存在于类别内部,不主动挖掘根本看不出来。一旦忽略那么就会得到错误的结论、垃圾特征、误导性的报表。

这篇文章讲的是如何在 EDA 阶段把这些隐藏结构找出来,用实际的步骤、真实的案例,外加可以直接复用的 Python 代码。

什么是"隐藏层次结构"?

一个分类变量表面看起来是扁平的,实际上却是分层的:这就是隐藏层次结构。

举几个常见例子:

City

背后藏着收入水平、门店类型、客户行为;

Product Category

背后是价格层级和利润模式;

Customer Type

对应着忠诚度阶段或消费能力;

Department

则可能隐含资历或责任级别。

把所有类别一视同仁EDA 就废了,因为它们从来都不平等。

示例数据集

继续使用同一份销售数据,保持系列的连贯性。

 import pandas as pd  
 import numpy as np  
 import matplotlib.pyplot as plt  
 import seaborn as sns  
 sns.set_style("whitegrid")  
 df = pd.read_csv("sales_data.csv")  
 df['order_date'] = pd.to_datetime(df['order_date'])  
 df.head()

扁平类别的假象

初学者通常这么干:

 df['city'].value_counts()

输出:Delhi: 3,Mumbai: 1,Bangalore: 1。

结论:"Delhi 销售最多。"

技术上没错,分析上毫无价值。

EDA 应该问更好的问题:Delhi 的客户是买得更频繁,还是买得更贵?Delhi 的数据是不是被某一个客户撑起来的?不同城市的品类结构有没有差异?

扁平的计数把真正的结构埋了起来。

频率不等于重要性

比较一下频率和价值:

 df.groupby('city')['amount'].sum().sort_values(ascending=False)

再看均值:

 df.groupby('city')['amount'].mean().sort_values(ascending=False)

你很可能发现:某个城市订单少但客单价高,另一个城市量大但贡献的收入反而一般。

这就是第一个隐藏层次结构:数量主导 vs 价值主导。

出现频率高的类别,并不自动意味着更重要。

嵌套类别

类别很少孤立存在。看看

city → category

的关系:

 pd.crosstab(df['city'], df['category'], normalize='index')

可视化一下:

 pd.crosstab(df['city'], df['category'], normalize='index')\  
   .plot(kind='bar', stacked=True, figsize=(8,5))  
 plt.title("Category Distribution Within Each City")  
 plt.show()

模式开始出现了:有的城市电子产品占大头,有的城市家具更突出,还有的城市品类分布比较均匀。

这里的隐藏层次结构是:城市不是一个类别,而是一个容器。

忽略这一点,细分就做不好,报表也只是走过场。

主导类别背后的子群组

看看

category

 df['category'].value_counts(normalize=True)

电子产品占主导。但继续拆解:

 df.groupby(['category', 'product'])['amount'].sum()

很可能发现某一个产品贡献了绝大部分收入,其他产品只是凑数的。

一个大类别可能完全由一个小子群组撑着。这对特征工程、库存规划、模型偏差都有直接影响。

客户层级

客户 ID 本质上也是分类变量,而且层次很深。

df.groupby('customer_id')['amount'].sum().sort_values(ascending=False)

你可能会看到某个客户贡献了大部分收入,或者同一个人反复购买。

再叠加城市维度:

df.groupby(['customer_id', 'city'])['amount'].sum()

真相可能是:某个城市的"领先地位"其实就靠一个客户撑着。由此得出的地理结论完全站不住脚。

永远要检查:一个类别是由众多贡献者驱动的,还是被某个异常个体拉高的。

时间带来的层次

时间天然会产生层次结构。

df['month'] = df['order_date'].dt.month  
df.groupby(['city', 'month'])['amount'].sum().unstack()

画出来:

sns.lineplot(data=df, x='month', y='amount', hue='city', marker='o')  
plt.show()

你可能会发现不同城市在不同月份达到峰值,季节性主导权在品类之间轮换。

静态的柱状图永远看不到这些。

类别与数值的交互

处理分类数据时,交互分析是最关键的一环。

先看单一维度:

sns.boxplot(x='category', y='amount', data=df)  
plt.show()

加上城市:

sns.boxplot(x='city', y='amount', hue='category', data=df)  
plt.xticks(rotation=45)  
plt.show()

同一个品类在不同城市的表现可能天差地别,消费分布不一样,隐藏的高端细分市场也藏在里面。

特征创意往往就是这么来的。

隐藏层次结构如何破坏模型

不做 EDA 就直接 one-hot 编码会出大问题,因为高价值和低价值的子群组被混在一起,客户集中度信息泄露,噪声被放大。

EDA 阶段可以这样修补:

df['high_value_customer'] = (  
    df.groupby('customer_id')['amount']  
      .transform('sum') > df['amount'].median()  
).astype(int)

这个特征的存在,完全依赖于对层次结构的挖掘。

分类数据的 EDA 清单

每个分类列都应该过一遍:频率检查、基于价值的聚合、跨类别交互、时间维度拆分、异常值主导检查。

跳过这些,EDA 就只是做做样子。

面试时怎么说

不要说"我检查了分类分布"。

要说:"我通过结合频率、价值贡献以及与时间和数值变量的交互,分析了分类变量的隐藏层次结构,识别出主导子群组,避免了建模时的误导性结论。"

面试官一听就知道你是明白人。

总结

分类数据从来都不是扁平的。EDA 存在的意义,就是证明这个假设是错的。

隐藏的层次结构能解释很多事:为什么报表会骗人,为什么模型会过拟合,为什么业务决策让人一头雾水。

一旦开始有意识地寻找这些结构,就再也回不去了。分析的段位会直接拉升一个档次。

EDA 的目的不是更快地出图,而是在相信图表之前,先想清楚。

by Gitanjali

目录
相关文章
|
9天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
5天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
4137 13
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
7天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
6822 14
|
5天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
4400 5
|
4天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
3203 8
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
7天前
|
人工智能 JavaScript API
零门槛部署本地 AI 助手:Clawdbot/Meltbot 部署深度保姆级教程
Clawdbot(Moltbot)是一款智能体AI助手,具备“手”(读写文件、执行代码)、“脚”(联网搜索、分析网页)和“脑”(接入Qwen/OpenAI等API或本地GPU模型)。本指南详解Windows下从Node.js环境搭建、一键安装到Token配置的全流程,助你快速部署本地AI助理。(239字)
4485 21
|
13天前
|
人工智能 API 开发者
Claude Code 国内保姆级使用指南:实测 GLM-4.7 与 Claude Opus 4.5 全方案解
Claude Code是Anthropic推出的编程AI代理工具。2026年国内开发者可通过配置`ANTHROPIC_BASE_URL`实现本地化接入:①极速平替——用Qwen Code v0.5.0或GLM-4.7,毫秒响应,适合日常编码;②满血原版——经灵芽API中转调用Claude Opus 4.5,胜任复杂架构与深度推理。
8157 12
|
3天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
2159 4