ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

简介: ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘


输出结果

image.pngimage.png

image.png


实现代码


# coding: utf8

import pandas as pd

import matplotlib.pyplot as plt

# ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘

#1、定义数据集

# 头发(长发/短发)、身高、下巴(棱角/圆滑)、胡长(mm)、皮肤、体重

contents={"name": ['Mary', 'Bob',  'Lisa', 'Tom',  'Alan', 'Jason','Sophia', 'Aiden',  'Sarah', 'Miqi', 'Temp01', 'Temp02'],

         "age":  [ 16,     24,      19,     20,      33,     23,     29,      31,        34,      24,       27,        30],

         "Hair": ['长发', '短发',  '长发', '短发', '长发', '短发', '长发',    '长发',   '长发',  '长发',    '短发',   '长发'],

       "Height": [158,     175,     162,    170,    175,    168,    166,     169,       164,     157,      182,        161],

        "Jaw":   ['圆滑', '棱角',  '圆滑', '棱角', '圆滑', '圆滑', '圆滑',    '棱角',  '圆滑',    '圆滑',    '棱角',   '圆滑'],

       "Beard":  [2,       7,       3,       5,      2,      3,      5,        6,         3,      4,         5,         3],

        "Skin":  ['细腻', '粗糙',  '细腻', '粗糙', '细腻', '粗糙', '细腻',   '粗糙',   '细腻',   '细腻',    '粗糙',    '粗糙'],

       "Weight": [99,     143,      105,     135,    120,    160,    95,      145,      125,     112,       155,        100],

        "Sex":   ['女性', '男性', '女性',  '男性', '男性', '男性',  '女性',   '男性',  '女性',   '女性',    '男性',    '女性'],

         }

data_frame = pd.DataFrame(contents)

print(type(data_frame))

data_name = 'HumanGender_RelatedAttributes'

col_cat='Jaw'

label_name='Sex'

for col in data_frame.columns[1:-2]:

   if data_frame[col].dtypes in ['object']:

       print(col)

       # T1、采用函数

       col_cats=[col,label_name]

#         SNCountPlot(col_cats,data_frame,imgName='')

     

       # T2、自定义函数???

       x_subname = list(data_frame[col].value_counts().to_dict().keys())

       label_y1 = list(data_frame[label_name].value_counts().to_dict().keys())[0]

       label_y2 = list(data_frame[label_name].value_counts().to_dict().keys())[1]

       y1=list(data_frame[data_frame[label_name]==label_y1][col].value_counts().to_dict().values())

       y2=list(data_frame[data_frame[label_name]==label_y2][col].value_counts().to_dict().values())

       print(x_subname)

       print(label_y1,label_y2)

       print(y1,y2)

     

#       # T2、自定义函数???

#         y01Lists,y02Lists=[],[]

#         for x in x_subname:

#             if x not in data_frame[data_frame[label_name]==label_y2][col].value_counts(dropna=False).to_dict().keys():

#                 pass

#             else:

#                

#                 y01=data_frame[data_frame[label_name]==label_y1][col].value_counts(dropna=False).to_dict()[x]

#                 y02=data_frame[data_frame[label_name]==label_y2][col].value_counts(dropna=False).to_dict()[x]

#                 y01Lists.append(y01)

#                 y02Lists.append(y02)

#         print(y01Lists,y02Lists)

     

     

       DoubleBarAddText(y1,y2, col,label_name, x_subname,label_y1,label_y2,data_name)

   else:

       Num_col_Plot2_ByLabels(data_name,data_frame,label_name,col)


相关文章
|
4月前
|
机器学习/深度学习
【机器学习】特征筛选实例与代码详解
【机器学习】特征筛选实例与代码详解
206 0
|
5月前
|
存储 数据采集 数据可视化
R语言估计时变VAR模型时间序列的实证研究分析案例
R语言估计时变VAR模型时间序列的实证研究分析案例
R语言估计时变VAR模型时间序列的实证研究分析案例
|
5月前
|
数据可视化
R语言KNN模型分类信贷用户信用等级数据参数调优和预测可视化|数据分享
R语言KNN模型分类信贷用户信用等级数据参数调优和预测可视化|数据分享
|
机器学习/深度学习 算法 数据可视化
机器学习-特征选择:如何使用相关性分析精确选择最佳特征?
本文致力于利用相关性分析来辅助特征选择过程。相关性分析作为一种用于量化特征之间关系的方法,可以帮助我们理解数据中的潜在模式和相互作用。通过分析特征之间的相关性,我们可以更加准确地选择具有高预测能力和独立性的特征,从而提高特征选择的效果和结果。
2197 0
|
机器学习/深度学习 存储 算法
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(二)
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(二)
190 0
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(二)
|
机器学习/深度学习 算法 计算机视觉
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(一)
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(一)
244 0
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(一)
|
数据可视化
ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘
ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘
ML之FE:对人类性别相关属性数据集进行数据特征分布可视化分析与挖掘
|
数据可视化
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用shap决策图结合LightGBM模型实现异常值检测案例之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用shap决策图结合LightGBM模型实现异常值检测案例之详细攻略
ML之shap:基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用shap决策图结合LightGBM模型实现异常值检测案例之详细攻略
|
机器学习/深度学习 索引 Python
ML之FE:特征工程中常用的五大数据集划分方法(特殊类型数据分割,如时间序列数据分割法)讲解及其代码
ML之FE:特征工程中常用的五大数据集划分方法(特殊类型数据分割,如时间序列数据分割法)讲解及其代码
|
机器学习/深度学习 算法
机器学习之输入特征判断鸢尾花的种类
机器学习之输入特征判断鸢尾花的种类
115 0
下一篇
无影云桌面