分组分析方法与实现

简介: 分组分析,是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。其特点在于不依赖于原始资料分布的正常性假设,可以按任意规律分布,在分析既包括数量资料,又包括质量资料的混合资料时尤为重要。

分组分析,是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。其特点在于不依赖于原始资料分布的正常性假设,可以按任意规律分布,在分析既包括数量资料,又包括质量资料的混合资料时尤为重要。

离散属性的分组比较容易,而连续属性的分组,分组前要进行离散化

img_89bc0985aa861e2dfbd5fa8c8a9959d0.png

img_6fc5138c7dabcd6cb90c5c67570b9c74.png

img_20111b886fdcc7088dfa85dd298622ce.png
image.png

img_71a70bb08db5d322913e8535bdeae4e5.png
离散值基尼系数的计算

img_1d84c09be39a4ad3ba21f1de2f4cb8e8.png
连续值的基尼系数的计算




代码实现

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_context(font_scale=1.5)
df = pd.read_csv("./data/HR.csv")
sns.barplot(x="salary",y="left",hue="department",data=df)
plt.show()
img_d74a76e29b226b5fc91a8a5b65c2e64e.png
未去除异常值,因此图像比较模糊
sl_s = df["satisfaction_level"]
sl_s = sl_s.dropna()
sns.barplot(list(range(len(sl_s))),sl_s.sort_values())
plt.show()
img_c93ba53816212ffe8b9a53d65aac602b.png
图中有两个明显的拐弯的界限,可以根据界限来对满意度分组
目录
相关文章
|
7月前
|
搜索推荐
过滤概念(可行性分析)
过滤概念(可行性分析)
|
1天前
时间序列分析实战(九):时序的协整关系检验
时间序列分析实战(九):时序的协整关系检验
|
2月前
|
数据挖掘
统计的基本概念及抽样分布
统计的基本概念及抽样分布
统计的基本概念及抽样分布
|
11月前
|
数据可视化 Serverless Go
scRNA分析|单细胞GSVA + limma差异分析-celltype分组?样本分组?
scRNA分析|单细胞GSVA + limma差异分析-celltype分组?样本分组?
730 0
|
11月前
|
数据挖掘
基于R筛选过滤低丰度物种的几种方式
基于R筛选过滤低丰度物种的几种方式
278 0
|
机器学习/深度学习 监控 Devops
机器学习测试笔记(8)——分组聚合
机器学习测试笔记(8)——分组聚合
72 0
|
存储 SQL 机器学习/深度学习
数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
这是在数据分析中常见的概念,下钻可以理解成增加维的层次,从而可以由粗粒度到细粒度来观察数据,比如对产品销售情况分析时,可以沿着时间维从年到月到日更细粒度的观察数据。从年的维度可以下钻到月的维度、日的维度等。
数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
|
数据采集 数据可视化 大数据
数据清洗_剪除反常数据_统计分布|学习笔记
快速学习数据清洗_剪除反常数据_统计分布
89 0
数据清洗_剪除反常数据_统计分布|学习笔记
|
数据采集 消息中间件 监控
数据预处理-链路统计实现思路|学习笔记
快速学习数据预处理-链路统计实现思路
95 0
数据预处理-链路统计实现思路|学习笔记
|
算法
基础算法练习200题01、劳动分组
基础算法练习200题01、劳动分组
52 0

相关实验场景

更多