如何找出 sklearn SelectBest 选出几个重要的特征名称（column name）

2023-01-08 263

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 如何找出 sklearn SelectBest 选出几个重要的特征名称（column name）

如何找出 sklearn SelectBest 选出几个重要的特征名称（column name）

一、需求

sklearn SelectBest 函数可以指定参数 k 的值，就能选出最重要的 k 个特征。也能通过 model.scores_ 和 model.pvalues_ 来输出得分和 p-value 的值，如果特征量小，可以通过肉眼对比 model.scores_ 来得知选出来的是哪几列，但是如果特征个数特别多，如何能通过排序方法知道排序结果，并输出选中的列名呢？

二、解决方法

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from  scipy.stats import chi2_contingency
import numpy as np
#导入IRIS数据集
iris = load_iris()
def get_feature_importance():
"""
此处省略 feature_data, label_data 的生成代码。
如果是 CSV 文件，可通过 read_csv() 函数获得特征和标签。
"""
    model = SelectKBest(chi2, k=2)#选择k个最佳特征
    X_new = model.fit_transform(feature_data, label_data)
    #feature_data是特征数据，label_data是标签数据，该函数可以选择出k个特征 
    print("model shape: ",X_new.shape)
    scores = model.scores_
    print('model scores:', scores)  # 得分越高，特征越重要
    p_values = model.pvalues_
    print('model p-values', p_values)  # p-values 越小，置信度越高，特征越重要
    # 按重要性排序，选出最重要的 k 个
    indices = np.argsort(scores)[::-1]
    k_best_features = list(feature_data.columns.values[indices[0:2]])
    print('k best features are: ',k_best_features)
    return k_best_features

以上，问题解决~

如何找出 sklearn SelectBest 选出几个重要的特征名称（column name）

如何找出 sklearn SelectBest 选出几个重要的特征名称（column name）

一、需求

二、解决方法

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

如何找出 sklearn SelectBest 选出几个重要的特征名称（column name）

如何找出 sklearn SelectBest 选出几个重要的特征名称（column name）

一、需求

二、解决方法

热门文章

最新文章

相关电子书