交叉分析方法与实现

简介: import pandas as pdimport numpy as npimport scipy.stats as ssimport matplotlib.
import pandas as pd
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("./data/HR.csv")
#获得以department分组后的索引值的数组dict
dp_indices = df.groupby("department").indices 
sales_values = df["left"].iloc[dp_indices["sales"]].values
technical_values = df["left"].iloc[dp_indices["technical"]].values
print(ss.ttest_ind(sales_values,technical_values)[1])

dp_keys = list(dp_indices.keys())
dp_t_mat = np.zeros([len(dp_keys),len(dp_keys)])
for i in range(len(dp_keys)):
    for j in range(len(dp_keys)):
        p_value = ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values,
                              df["left"].iloc[dp_indices[dp_keys[j]]].values)[1]
        dp_t_mat[i][j] = p_value
sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)
plt.show()
img_46b64192502fc4005c397749948cf270.png
颜色越深的地方t值越接近于0,也就代表颜色越深的地方,二者的离职率是有显著差异的,而颜色淡的地方代表离职率没有显著差异


piv_tb = pd.pivot_table(df,values="left",index=["promotion_last_5years","salary"],
                       columns=["Work_accident"],aggfunc=np.mean)
print(piv_tb)
img_4016b545f48de7108200a0174cd24156.png
sns.heatmap(piv_tb,vmin=0,vmax=1)
plt.show()
img_4b684e9b2a237b4cc569fb41cce59666.png
目录
相关文章
|
5月前
|
数据采集 运维 监控
|
5月前
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
|
18天前
|
机器学习/深度学习 算法
贝叶斯线性回归:概率与预测建模的融合
本文探讨了贝叶斯方法在线性回归中的应用,从不确定性角度出发,介绍了如何通过概率来表达变量间关系的不确定性。文章首先回顾了古希腊天文学家使用本轮系统模拟行星运动的历史,并将其与傅里叶级数分解方法类比,强调了近似的重要性。接着,通过高斯分布和贝叶斯推断,详细讲解了线性回归中的不确定性处理方法。文章使用Howell1数据集,展示了如何构建和拟合高斯模型,并通过先验预测模拟验证模型合理性。最后,介绍了多项式回归和样条方法,展示了如何逐步增加模型复杂性以捕捉更细微的数据模式。贝叶斯方法不仅提供了点估计,还提供了完整的后验分布,使得模型更具解释性和鲁棒性。
23 1
贝叶斯线性回归:概率与预测建模的融合
|
4月前
|
大数据
熵值法+TOPSIS法确定决策方案
熵值法+TOPSIS法确定决策方案
57 0
|
5月前
|
前端开发 数据建模 计算机视觉
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
|
5月前
|
计算机视觉
偏最小二乘回归(PLSR)和主成分回归(PCR)分析光谱数据
偏最小二乘回归(PLSR)和主成分回归(PCR)分析光谱数据
|
5月前
|
运维 算法 C++
R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
|
5月前
|
监控 数据可视化 数据挖掘
对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归|附数据代码
对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归|附数据代码
|
5月前
|
存储 机器学习/深度学习 数据挖掘
R语言分布滞后线性和非线性模型(DLM和DLNM)建模
R语言分布滞后线性和非线性模型(DLM和DLNM)建模
|
5月前
回归分析与相关分析的区别和联系
回归分析与相关分析的区别和联系