在Python中创建相关系数矩阵的6种方法

简介: 相关系数矩阵(Correlation matrix)是数据分析的基本工具。它们让我们了解不同的变量是如何相互关联的。在Python中,有很多个方法可以计算相关系数矩阵,今天我们来对这些方法进行一个总结

Pandas

Pandas的DataFrame对象可以使用corr方法直接创建相关矩阵。由于数据科学领域的大多数人都在使用Pandas来获取数据,因此这通常是检查数据相关性的最快、最简单的方法之一。

 import pandas as pd
 import seaborn as sns

 data = sns.load_dataset('mpg')
 correlation_matrix = data.corr(numeric_only=True)
 correlation_matrix

如果你是统计和分析相关工作的,你可能会问" p值在哪里?",在最后我们会有介绍

Numpy

Numpy也包含了相关系数矩阵的计算函数,我们可以直接调用,但是因为返回的是ndarray,所以看起来没有pandas那么清晰。

 import numpy as np
 from sklearn.datasets import load_iris

 iris = load_iris()
 np.corrcoef(iris["data"])

为了更好的可视化,我们可以直接将其传递给sns.heatmap()函数。

 import seaborn as sns

 data = sns.load_dataset('mpg')
 correlation_matrix = data.corr()

 sns.heatmap(data.corr(), 
             annot=True, 
             cmap='coolwarm')

annot=True这个参数可以输出一些额外的有用信息。一个常见hack是使用sns.set_context('talk')来获得额外的可读输出。

这个设置是为了生成幻灯片演示的图像,它能帮助我们更好地阅读(更大的字体)。

Statsmodels

Statsmodels这个统计分析库也是肯定可以的

 import statsmodels.api as sm

 correlation_matrix = sm.graphics.plot_corr(
     data.corr(), 
     xnames=data.columns.tolist())

plotly

默认情况下plotly这个结果是如何从左下到右上运行对角线1.0的。这种行为与大多数其他工具相反,所以如果你使用plotly需要特别注意

 import plotly.offline as pyo
 pyo.init_notebook_mode(connected=True)

 import plotly.figure_factory as ff

 correlation_matrix = data.corr()

 fig = ff.create_annotated_heatmap(
     z=correlation_matrix.values, 
     x=list(correlation_matrix.columns), 
     y=list(correlation_matrix.index), 
     colorscale='Blues')

 fig.show()

Pandas + Matplotlib更好的可视化

这个结果也可以直接使用用sns.pairplot(data),两种方法产生的图差不多,但是seaborn只需要一句话

 sns.pairplot(df[['mpg','weight','horsepower','acceleration']])

所以我们这里介绍如何使用Matplotlib来实现

 import matplotlib.pyplot as plt

 pd.plotting.scatter_matrix(
     data, alpha=0.2, 
     figsize=(6, 6), 
     diagonal='hist')

 plt.show()

相关性的p值

如果你正在寻找一个简单的矩阵(带有p值),这是许多其他工具(SPSS, Stata, R, SAS等)默认做的,那如何在Python中获得呢?

这里就要借助科学计算的scipy库了,以下是实现的函数

 from scipy.stats import pearsonr
 import pandas as pd
 import seaborn as sns

 def corr_full(df, numeric_only=True, rows=['corr', 'p-value', 'obs']):
     """
     Generates a correlation matrix with correlation coefficients, 
     p-values, and observation count.

     Args:
     - df:                  Input dataframe
     - numeric_only (bool): Whether to consider only numeric columns for 
                            correlation. Default is True.
     - rows:                Determines the information to show. 
                            Default is ['corr', 'p-value', 'obs'].

     Returns:
     - formatted_table: The correlation matrix with the specified rows.
     """

     # Calculate Pearson correlation coefficients
     corr_matrix = df.corr(
         numeric_only=numeric_only)

     # Calculate the p-values using scipy's pearsonr
     pvalue_matrix = df.corr(
         numeric_only=numeric_only, 
         method=lambda x, y: pearsonr(x, y)[1])

     # Calculate the non-null observation count for each column
     obs_count = df.apply(lambda x: x.notnull().sum())

     # Calculate observation count for each pair of columns
     obs_matrix = pd.DataFrame(
         index=corr_matrix.columns, columns=corr_matrix.columns)
     for col1 in obs_count.index:
         for col2 in obs_count.index:
             obs_matrix.loc[col1, col2] = min(obs_count[col1], obs_count[col2])

     # Create a multi-index dataframe to store the formatted correlations
     formatted_table = pd.DataFrame(
         index=pd.MultiIndex.from_product([corr_matrix.columns, rows]), 
         columns=corr_matrix.columns
     )

     # Assign values to the appropriate cells in the formatted table
     for col1 in corr_matrix.columns:
         for col2 in corr_matrix.columns:
             if 'corr' in rows:
                 formatted_table.loc[
                     (col1, 'corr'), col2] = corr_matrix.loc[col1, col2]

             if 'p-value' in rows:
                 # Avoid p-values for diagonal they correlate perfectly
                 if col1 != col2:
                     formatted_table.loc[
                         (col1, 'p-value'), col2] = f"({pvalue_matrix.loc[col1, col2]:.4f})"
             if 'obs' in rows:
                 formatted_table.loc[
                     (col1, 'obs'), col2] = obs_matrix.loc[col1, col2]

     return(formatted_table.fillna('')
            .style.set_properties(**{'text-align': 'center'}))

直接调用这个函数,我们返回的结果如下:

 df = sns.load_dataset('mpg')
 result = corr_full(df, rows=['corr', 'p-value'])
 result

总结

我们介绍了Python创建相关系数矩阵的各种方法,这些方法可以随意选择(那个方便用哪个)。Python中大多数工具的标准默认输出将不包括p值或观察计数,所以如果你需要这方面的统计,可以使用我们子厚提供的函数,因为要进行全面和完整的相关性分析,有p值和观察计数作为参考是非常有帮助的。

https://avoid.overfit.cn/post/836b5590a96045faae2774bb3f23c9ef

目录
相关文章
|
1月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
291 1
|
2月前
|
测试技术 开发者 Python
Python单元测试入门:3个核心断言方法,帮你快速定位代码bug
本文介绍Python单元测试基础,详解`unittest`框架中的三大核心断言方法:`assertEqual`验证值相等,`assertTrue`和`assertFalse`判断条件真假。通过实例演示其用法,帮助开发者自动化检测代码逻辑,提升测试效率与可靠性。
309 1
|
3月前
|
机器学习/深度学习 数据采集 数据挖掘
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
119 2
|
3月前
|
调度 Python
微电网两阶段鲁棒优化经济调度方法(Python代码实现)
微电网两阶段鲁棒优化经济调度方法(Python代码实现)
113 0
|
3月前
|
传感器 大数据 API
Python数字限制在指定范围内:方法与实践
在Python编程中,限制数字范围是常见需求,如游戏属性控制、金融计算和数据过滤等场景。本文介绍了五种主流方法:基础条件判断、数学运算、装饰器模式、类封装及NumPy数组处理,分别适用于不同复杂度和性能要求的场景。每种方法均有示例代码和适用情况说明,帮助开发者根据实际需求选择最优方案。
182 0
|
3月前
|
Python
Python字符串center()方法详解 - 实现字符串居中对齐的完整指南
Python的`center()`方法用于将字符串居中,并通过指定宽度和填充字符美化输出格式,常用于文本对齐、标题及表格设计。
|
2月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
373 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
4月前
|
安全 Python
Python语言中常用的文件操作方法探讨
通过上述方法的结合使用,我们可以构筑出强大并且可靠的文件操作逻辑,切实解决日常编程中遇到的文件处理问题。
230 72
|
3月前
|
机器学习/深度学习 数据采集 算法
【CNN-BiLSTM-attention】基于高斯混合模型聚类的风电场短期功率预测方法(Python&matlab代码实现)
【CNN-BiLSTM-attention】基于高斯混合模型聚类的风电场短期功率预测方法(Python&matlab代码实现)
240 4
|
2月前
|
算法 调度 决策智能
【两阶段鲁棒优化】利用列-约束生成方法求解两阶段鲁棒优化问题(Python代码实现)
【两阶段鲁棒优化】利用列-约束生成方法求解两阶段鲁棒优化问题(Python代码实现)

推荐镜像

更多