分组分析方法与实现

简介: 分组分析,是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。其特点在于不依赖于原始资料分布的正常性假设,可以按任意规律分布,在分析既包括数量资料,又包括质量资料的混合资料时尤为重要。

分组分析,是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。其特点在于不依赖于原始资料分布的正常性假设,可以按任意规律分布,在分析既包括数量资料,又包括质量资料的混合资料时尤为重要。

离散属性的分组比较容易,而连续属性的分组,分组前要进行离散化

img_89bc0985aa861e2dfbd5fa8c8a9959d0.png

img_6fc5138c7dabcd6cb90c5c67570b9c74.png

img_20111b886fdcc7088dfa85dd298622ce.png
image.png

img_71a70bb08db5d322913e8535bdeae4e5.png
离散值基尼系数的计算

img_1d84c09be39a4ad3ba21f1de2f4cb8e8.png
连续值的基尼系数的计算




代码实现

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_context(font_scale=1.5)
df = pd.read_csv("./data/HR.csv")
sns.barplot(x="salary",y="left",hue="department",data=df)
plt.show()
img_d74a76e29b226b5fc91a8a5b65c2e64e.png
未去除异常值,因此图像比较模糊
sl_s = df["satisfaction_level"]
sl_s = sl_s.dropna()
sns.barplot(list(range(len(sl_s))),sl_s.sort_values())
plt.show()
img_c93ba53816212ffe8b9a53d65aac602b.png
图中有两个明显的拐弯的界限,可以根据界限来对满意度分组
目录
相关文章
为什么要使用组件库?
为什么要使用组件库?
393 0
|
缓存 网络协议 安全
计算机网络 TCP、RPC、GRPC、HTTP 对比
【1月更文挑战第1天】计算机网络 TCP、RPC、GRPC、HTTP 对比
|
存储 分布式计算 运维
Hadoop重新格式化HDFS的方案
【8月更文挑战第8天】
303 2
|
Windows
vscode 终端无法执行npm、cnpm命令的解决办法,npm : 无法将“npm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试
vscode 终端无法执行npm、cnpm命令的解决办法,npm : 无法将“npm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试
5571 0
|
SQL 存储 分布式计算
在scala中使用spark
在scala中使用spark
917 0
|
前端开发 JavaScript
|
网络协议 网络架构 Windows
解锁远程联机模式:使用MCSM面板搭建我的世界服务器,并实现内网穿透公网访问
解锁远程联机模式:使用MCSM面板搭建我的世界服务器,并实现内网穿透公网访问
877 0
|
前端开发 JavaScript 安全
如何在React项目中动态插入HTML内容
如何在React项目中动态插入HTML内容
498 0
|
安全 Java
Qt单例:Qt有专门的宏Q_GLOBAL_STATIC,用来实现线程安全的单例模式
Qt单例:Qt有专门的宏Q_GLOBAL_STATIC,用来实现线程安全的单例模式
1415 0
|
机器学习/深度学习 PyTorch 算法框架/工具
SE 注意力模块 原理分析与代码实现
本文介绍SE注意力模块,它是在SENet中提出的,SENet是ImageNet 2017的冠军模型;SE模块常常被用于CV模型中,能较有效提取模型精度,所以给大家介绍一下它的原理,设计思路,代码实现,如何应用在模型中。
3918 0