大五人格测试数据集的探索

简介: 大五人格测试数据集的探索

1.数据介绍


1.1 数据背景


麻省理工的心理学教授倾向通过TheBigFive(大五类人格特征)来描述人的人格与个性。 大五类因素包括:严谨性、外向性、开放性、宜人性与神经质人格特质。

一般记忆为 OCEAN-海洋或NEOAC-独木舟):

  • O 代表 Openness to experience (开放性)
  • C 代表 Conscientiousness(严谨性)
  • E 代表 Extraversion(外向性)
  • A 代表 Agreeableness (宜人性)
  • N 代表 Neuroticism(神经质) 本数据集包含了由Open Psychometrics在线收集的1,015,342份问卷的答案。


1.2 数据说明


这些数据是通过互动式在线性格测试收集的(2016-2018)。

该人格测试是用IPIP的 "大五因子标记 "构建的。ipip.ori.org/newBigFive5…

在测试开始时,参与者被告知他们的回答将被记录并用于研究,并在测试结束时被要求确认他们的同意。

以下项目被放在一页上,每个项目都用单选按钮进行五分制评分。

页面上的顺序是:EXT1、AGR1、CSN1、EST1、OPN1、EXT2等等。

评分标准是:1=不同意,3=中立,5=同意。

EXT - Extraversion - 外向性,指个体对外部世界的积极投入程度。

EST - Neuroticism - 神经质,指个体体验消极情绪的倾向。

AGR - Agreeableness - 宜人性,指个体在合作与社会和谐性方面的差异。

CSN - Conscientiousness - 严谨性,指个体在目标导向行为上的组织、坚持和动机。

OPN - Openness to experience - 开放性,指个体对经验持开放、探求的态度。

单选项目字段 题目描述
EXT1 我是聚会的主角。
EXT2 我不常说话。
EXT3 我觉得与人相处很舒服。
EXT4 我保持在后台。
EXT5 我开始谈话。
EXT6 我没有什么可说的。
EXT7 我在聚会上与很多不同的人交谈。
EXT8 我不喜欢引起别人的注意。
EXT9 我不介意成为注意力的中心。
EXT10 我在陌生人面前很安静。
EST1 我很容易产生压力。
EST2 我大部分时间都很放松。
EST3 我担心的事情。
EST4 我很少感到忧郁。
EST5 我很容易被打擾。
EST6 我很容易感到不安。
EST7 我经常改变我的情绪。
EST8 我经常有情绪波动。
EST9 我很容易被激怒.
EST10 我经常感到忧郁。
AGR1 我对别人的关心很少。
AGR2 我对人感兴趣。
AGR3 我羞辱别人。
AGR4 我同情别人的感受。
AGR5 我对别人的问题不感兴趣。
AGR6 我有一颗柔软的心。
AGR7 我对别人不感兴趣。
AGR8 我为他人抽出时间。
AGR9 我感受别人的情绪。
AGR10 我让人感到安心。
CSN1 我总是做好准备。
CSN2 我把我的物品留在身边。
CSN3 我注意细节。
CSN4 我把事情搞得一团糟。
CSN5 我立马完成家务事。
CSN6 我经常忘记把东西放回原处。
CSN7 我喜欢秩序。
CSN8 我推卸责任。
CSN9 我遵守时间表。
CSN10 我在工作中很严谨。
OPN1 我有丰富的词汇量。
OPN2 我很难理解抽象的概念。
OPN3 我有生动的想象力。
OPN4 我对抽象的想法不感兴趣。
OPN5 我有出色的想法。
OPN6 我没有良好的想象力。
OPN7 我对事物的理解很快。
OPN8 我使用困难的词语。
OPN9 我花时间反思事物。
OPN10 我充满了想法。

在每个问题上花费的时间也以毫秒为单位记录。这些是以_E结尾的变量。这是用点击问题的按钮时的时间减去最近一次点击其他按钮的时间来计算的。

数据字段 说明
dateload 调查开始的时间戳。
screenw 用户屏幕的宽度,像素
screenh 用户屏幕的高度,单位是像素。
introelapse 在登陆/介绍页面上花费的时间(秒)。
testelapse 在有调查问题的页面上花费的时间(秒)。
endelapse 在最终确定页面上花费的时间,以秒为单位(在这个页面上,用户被要求表明他们是否已经准确回答,他们的答案可以被存储并用于研究。再次强调:本数据集只包括对这个问题回答 "是 "的用户,用户可以自由地回答 "否",并且仍然可以查看他们的结果。)
IPC 数据集中来自用户IP地址的记录数量。为了达到最大的清洁度,只使用此值为1的记录。高值可能是因为共享网络(如整个大学)或多次提交的原因
country 国家,由技术信息决定(不作为问题)。
lat_appx_lots_of_err 用户的近似纬度,由技术信息决定,这不是非常准确的。阅读文章 "互联网地图故障如何将堪萨斯州的一个随机农场变成数字地狱" ,了解依赖这一信息的危险性。
long_appx_lots_of_err 用户的近似经度


1.3 数据来源


www.kaggle.com/datasets/tu…


2.数据分析


2.1数据载入


import numpy as np 
# 导入pandas包
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
warnings.filterwarnings('ignore')
!unzip -qoa data/data176153/data-final.zip
# 读取五大人格测试数据
data_path="data-final.csv"
data_raw=pd.read_csv(data_path)
data = data_raw.copy()
pd.options.display.max_columns = 150
# 缺失值处理
data.drop(data.columns[50:107], axis=1, inplace=True)
data.drop(data.columns[51:], axis=1, inplace=True)
print('参与者数量: ', len(data))
data.head()
参与者数量:  1015341
.dataframe tbody tr th:only-of-type {         vertical-align: middle;     } .dataframe tbody tr th {     vertical-align: top; } .dataframe thead th {     text-align: right; }

EXT1 EXT2 EXT3 EXT4 EXT5 EXT6 EXT7 EXT8 EXT9 EXT10 EST1 EST2 EST3 EST4 EST5 EST6 EST7 EST8 EST9 EST10 AGR1 AGR2 AGR3 AGR4 AGR5 AGR6 AGR7 AGR8 AGR9 AGR10 CSN1 CSN2 CSN3 CSN4 CSN5 CSN6 CSN7 CSN8 CSN9 CSN10 OPN1 OPN2 OPN3 OPN4 OPN5 OPN6 OPN7 OPN8 OPN9 OPN10 country
0 4.0 1.0 5.0 2.0 5.0 1.0 5.0 2.0 4.0 1.0 1.0 4.0 4.0 2.0 2.0 2.0 2.0 2.0 3.0 2.0 2.0 5.0 2.0 4.0 2.0 3.0 2.0 4.0 3.0 4.0 3.0 4.0 3.0 2.0 2.0 4.0 4.0 2.0 4.0 4.0 5.0 1.0 4.0 1.0 4.0 1.0 5.0 3.0 4.0 5.0 GB
1 3.0 5.0 3.0 4.0 3.0 3.0 2.0 5.0 1.0 5.0 2.0 3.0 4.0 1.0 3.0 1.0 2.0 1.0 3.0 1.0 1.0 4.0 1.0 5.0 1.0 5.0 3.0 4.0 5.0 3.0 3.0 2.0 5.0 3.0 3.0 1.0 3.0 3.0 5.0 3.0 1.0 2.0 4.0 2.0 3.0 1.0 4.0 2.0 5.0 3.0 MY
2 2.0 3.0 4.0 4.0 3.0 2.0 1.0 3.0 2.0 5.0 4.0 4.0 4.0 2.0 2.0 2.0 2.0 2.0 1.0 3.0 1.0 4.0 1.0 4.0 2.0 4.0 1.0 4.0 4.0 3.0 4.0 2.0 2.0 2.0 3.0 3.0 4.0 2.0 4.0 2.0 5.0 1.0 2.0 1.0 4.0 2.0 5.0 3.0 4.0 4.0 GB
3 2.0 2.0 2.0 3.0 4.0 2.0 2.0 4.0 1.0 4.0 3.0 3.0 3.0 2.0 3.0 2.0 2.0 2.0 4.0 3.0 2.0 4.0 3.0 4.0 2.0 4.0 2.0 4.0 3.0 4.0 2.0 4.0 4.0 4.0 1.0 2.0 2.0 3.0 1.0 4.0 4.0 2.0 5.0 2.0 3.0 1.0 4.0 4.0 3.0 3.0 GB
4 3.0 3.0 3.0 3.0 5.0 3.0 3.0 5.0 3.0 4.0 1.0 5.0 5.0 3.0 1.0 1.0 1.0 1.0 3.0 2.0 1.0 5.0 1.0 5.0 1.0 3.0 1.0 5.0 5.0 3.0 5.0 1.0 5.0 1.0 3.0 1.0 5.0 1.0 5.0 5.0 5.0 1.0 5.0 1.0 5.0 1.0 5.0 3.0 5.0 5.0 KE


2.2 数据基本情况


print('是否缺少任何值? ', data.isnull().values.any())
print('缺少多少值? ', data.isnull().values.sum())
data.dropna(inplace=True)
print('消除缺失值后的参与者数量: ', len(data))
是否缺少任何值?  True
缺少多少值?  89227
消除缺失值后的参与者数量:  1013481


2.3 参与者的国籍分布


!ls /usr/share/fonts/fangzheng/
FZHLJW.TTF  FZSYJW.TTF
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
# sns中文字体显示设置
myfont = fm.FontProperties(fname=os.path.join(os.getenv('HOME'),'/usr/share/fonts/fangzheng/FZSYJW.TTF'),size=20)
sns.set(font=myfont.get_name())
# 参与者的国籍分布
countries = pd.DataFrame(data['country'].value_counts())
countries_5000 = countries[countries['country'] >= 5000]
plt.figure(figsize=(15,5))
sns.barplot(data=countries_5000, x=countries_5000.index, y='country')
plt.title('参与人数超过5000人的国家')
plt.ylabel('参与者');

image.png


2.4 检查问题分布


# 问题和问题分组
ext_questions = {'EXT1' : 'I am the life of the party',
                 'EXT2' : 'I dont talk a lot',
                 'EXT3' : 'I feel comfortable around people',
                 'EXT4' : 'I keep in the background',
                 'EXT5' : 'I start conversations',
                 'EXT6' : 'I have little to say',
                 'EXT7' : 'I talk to a lot of different people at parties',
                 'EXT8' : 'I dont like to draw attention to myself',
                 'EXT9' : 'I dont mind being the center of attention',
                 'EXT10': 'I am quiet around strangers'}
est_questions = {'EST1' : 'I get stressed out easily',
                 'EST2' : 'I am relaxed most of the time',
                 'EST3' : 'I worry about things',
                 'EST4' : 'I seldom feel blue',
                 'EST5' : 'I am easily disturbed',
                 'EST6' : 'I get upset easily',
                 'EST7' : 'I change my mood a lot',
                 'EST8' : 'I have frequent mood swings',
                 'EST9' : 'I get irritated easily',
                 'EST10': 'I often feel blue'}
agr_questions = {'AGR1' : 'I feel little concern for others',
                 'AGR2' : 'I am interested in people',
                 'AGR3' : 'I insult people',
                 'AGR4' : 'I sympathize with others feelings',
                 'AGR5' : 'I am not interested in other peoples problems',
                 'AGR6' : 'I have a soft heart',
                 'AGR7' : 'I am not really interested in others',
                 'AGR8' : 'I take time out for others',
                 'AGR9' : 'I feel others emotions',
                 'AGR10': 'I make people feel at ease'}
csn_questions = {'CSN1' : 'I am always prepared',
                 'CSN2' : 'I leave my belongings around',
                 'CSN3' : 'I pay attention to details',
                 'CSN4' : 'I make a mess of things',
                 'CSN5' : 'I get chores done right away',
                 'CSN6' : 'I often forget to put things back in their proper place',
                 'CSN7' : 'I like order',
                 'CSN8' : 'I shirk my duties',
                 'CSN9' : 'I follow a schedule',
                 'CSN10' : 'I am exacting in my work'}
opn_questions = {'OPN1' : 'I have a rich vocabulary',
                 'OPN2' : 'I have difficulty understanding abstract ideas',
                 'OPN3' : 'I have a vivid imagination',
                 'OPN4' : 'I am not interested in abstract ideas',
                 'OPN5' : 'I have excellent ideas',
                 'OPN6' : 'I do not have a good imagination',
                 'OPN7' : 'I am quick to understand things',
                 'OPN8' : 'I use difficult words',
                 'OPN9' : 'I spend time reflecting on things',
                 'OPN10': 'I am full of ideas'}
# 分组名称和列名
EXT = [column for column in data if column.startswith('EXT')]
EST = [column for column in data if column.startswith('EST')]
AGR = [column for column in data if column.startswith('AGR')]
CSN = [column for column in data if column.startswith('CSN')]
OPN = [column for column in data if column.startswith('OPN')]
# 定义一个函数来可视化问题和答案分布
def vis_questions(groupname, questions, color):
    plt.figure(figsize=(40,60))
    for i in range(1, 11):
        plt.subplot(10,5,i)
        plt.hist(data[groupname[i-1]], bins=14, color= color, alpha=.5)
        plt.title(questions[groupname[i-1]], fontsize=18)
print('与外向型人格相关的问答')
vis_questions(EXT, ext_questions, 'green')
与外向型人格相关的问答

image.png

print('神经质人格相关的问答')
vis_questions(EST, est_questions, 'pink')
神经质人格相关的问答

image.png

print('宜人性格相关的问答')
vis_questions(AGR, agr_questions, 'red')
宜人性格相关的问答

image.png

print('尽责人格相关的问答')
vis_questions(CSN, csn_questions, 'purple')
尽责人格相关的问答

image.png

print('开放人格相关的问答')
vis_questions(OPN, opn_questions, 'blue')
开放人格相关的问答

image.png


3.模型训练 & 预测


3.1 聚类可视化分析


# https://www.scikit-yb.org/en/latest/  可视化神器
# 需要安装后重启notebook
!pip install -q yellowbrick
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Requirement already satisfied: sklearn in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (0.0.post1)
[notice] A new release of pip available: 22.1.2 -> 22.3.1
[notice] To update, run: pip install --upgrade pip
# 归一化(5000数据)
from sklearn.preprocessing import MinMaxScaler
df = data.drop('country', axis=1)
columns = list(df.columns)
scaler = MinMaxScaler(feature_range=(0,1))
df = scaler.fit_transform(df)
df = pd.DataFrame(df, columns=columns)
df_sample = df[:5000]
# Visualize the elbow
from sklearn.cluster import KMeans
from yellowbrick.cluster import KElbowVisualizer
kmeans = KMeans()
visualizer = KElbowVisualizer(kmeans, k=(2,15))
visualizer.fit(df_sample)
visualizer.poof()

image.png

<matplotlib.axes._subplots.AxesSubplot at 0x7f457fd39850>

如图所示:5类是比较合适的。


3.2 模型拟合


将参与者分为5个性格组

# 创建 K-means Cluster Model
from sklearn.cluster import KMeans
# 使用未归一化数据
df_model = data.drop('country', axis=1)
# 拟合模型
kmeans = KMeans(n_clusters=5)
k_fit = kmeans.fit(df_model)
# 预测聚类
pd.options.display.max_columns = 10
predictions = k_fit.labels_
df_model['Clusters'] = predictions
df_model.head()
.dataframe tbody tr th:only-of-type {         vertical-align: middle;     } .dataframe tbody tr th {     vertical-align: top; } .dataframe thead th {     text-align: right; }

EXT1 EXT2 EXT3 EXT4 EXT5 ... OPN7 OPN8 OPN9 OPN10 Clusters
0 4.0 1.0 5.0 2.0 5.0 ... 5.0 3.0 4.0 5.0 3
1 3.0 5.0 3.0 4.0 3.0 ... 4.0 2.0 5.0 3.0 2
2 2.0 3.0 4.0 4.0 3.0 ... 5.0 3.0 4.0 4.0 2
3 2.0 2.0 2.0 3.0 4.0 ... 4.0 4.0 3.0 3.0 1
4 3.0 3.0 3.0 3.0 5.0 ... 5.0 3.0 5.0 5.0 3

5 rows × 51 columns


3.3 分析模型和预测


每个cluster有多少个人?

df_model.Clusters.value_counts()
0    227165
2    212974
3    209628
4    200827
1    162887
Name: Clusters, dtype: int64

让我们根据聚类对结果进行分组。这样,我们可以调查每个集群中每个问题的平均答案。

这样,我们就可以直观地了解我们的模型如何对人进行分类。

pd.options.display.max_columns = 150
df_model.groupby('Clusters').mean()
.dataframe tbody tr th:only-of-type {         vertical-align: middle;     } .dataframe tbody tr th {     vertical-align: top; } .dataframe thead th {     text-align: right; }

EXT1 EXT2 EXT3 EXT4 EXT5 EXT6 EXT7 EXT8 EXT9 EXT10 EST1 EST2 EST3 EST4 EST5 EST6 EST7 EST8 EST9 EST10 AGR1 AGR2 AGR3 AGR4 AGR5 AGR6 AGR7 AGR8 AGR9 AGR10 CSN1 CSN2 CSN3 CSN4 CSN5 CSN6 CSN7 CSN8 CSN9 CSN10 OPN1 OPN2 OPN3 OPN4 OPN5 OPN6 OPN7 OPN8 OPN9 OPN10
Clusters
0 3.443884 1.920771 3.786081 2.513530 4.035573 1.836625 3.645060 2.774723 3.756802 3.009759 3.816948 2.922585 4.247595 2.410609 3.290089 3.472643 3.810116 3.461708 3.660793 3.179064 2.159232 4.270042 2.653450 4.184174 2.001774 4.000550 1.859732 3.897383 4.132164 3.843418 2.959712 3.599599 3.843299 3.234504 2.239403 3.517879 3.462901 2.826936 2.950472 3.480976 3.737191 2.120001 4.246270 1.968124 3.955108 1.773253 3.960826 3.372936 4.190628 4.198547
1 2.195626 3.278494 2.793679 3.396164 2.589795 2.756758 2.125265 3.516622 2.655946 3.779141 2.342581 3.618957 2.985297 2.918760 2.324906 2.016091 2.308029 1.928503 2.587327 2.246287 3.038653 2.923045 2.588782 2.755610 3.161161 2.633126 3.009688 2.838723 2.587604 2.972238 3.135658 2.837255 3.660961 2.416399 2.362263 2.749157 3.369207 2.520299 2.760478 3.333919 3.535740 1.977015 3.614463 2.059108 3.622352 2.042496 3.882802 3.112980 3.691516 3.667340
2 2.120634 3.312179 3.095838 3.664715 2.954656 2.710533 2.202513 4.004587 2.324284 4.134937 3.477415 3.098411 4.136477 2.619263 2.803821 2.762154 2.844967 2.404613 2.949379 2.689657 1.886719 3.935325 1.686985 4.348578 1.990384 4.138139 2.017993 3.979937 4.168514 3.719661 3.832416 2.234564 4.296017 2.016936 3.233197 2.079892 4.159268 2.016101 3.824796 3.887930 3.574929 2.132335 3.891531 2.060444 3.728713 1.966249 4.012560 2.983693 4.262811 3.814954
3 3.478629 1.936635 4.341300 2.212462 4.268767 1.662078 3.892939 2.802617 3.749866 2.507819 2.324413 3.820005 3.155557 3.281637 2.116511 1.902470 2.113554 1.679327 2.119602 1.719837 1.894256 4.432938 1.834397 4.246432 1.856966 3.845927 1.587231 4.096996 4.099600 4.194983 3.713717 2.584235 4.189727 1.900882 3.136241 2.284814 3.867723 1.937513 3.578215 3.874010 3.886232 1.754017 4.084097 1.794526 4.159187 1.653791 4.314309 3.237077 4.095154 4.296721
4 1.807376 3.628725 2.231767 4.055441 2.282816 3.194307 1.741628 4.069757 2.173956 4.475354 4.251211 2.458265 4.504793 2.145513 3.557784 3.859556 3.988906 3.759390 4.006423 3.931025 2.496442 3.332490 2.599974 3.808268 2.582491 3.825741 2.739517 3.410567 3.649206 3.047200 2.811624 3.347697 3.815513 3.469494 2.099852 3.491214 3.565193 3.038859 2.784979 3.311572 3.500416 2.382563 4.061665 2.137974 3.433408 2.087399 3.678738 3.177068 4.277169 3.721990

总结一下每个问题组(EXT,EST…),看看我们是否能看到一个模式。

col_list = list(df_model)
ext = col_list[0:10]
est = col_list[10:20]
agr = col_list[20:30]
csn = col_list[30:40]
opn = col_list[40:50]
data_sums = pd.DataFrame()
data_sums['extroversion'] = df_model[ext].sum(axis=1)/10
data_sums['neurotic'] = df_model[est].sum(axis=1)/10
data_sums['agreeable'] = df_model[agr].sum(axis=1)/10
data_sums['conscientious'] = df_model[csn].sum(axis=1)/10
data_sums['open'] = df_model[opn].sum(axis=1)/10
data_sums['clusters'] = predictions
data_sums.groupby('clusters').mean()
.dataframe tbody tr th:only-of-type {         vertical-align: middle;     } .dataframe tbody tr th {     vertical-align: top; } .dataframe thead th {     text-align: right; }

extroversion neurotic agreeable conscientious open
clusters
0 3.072281 3.427215 3.300192 3.211568 3.352288
1 2.908749 2.527674 2.850863 2.914560 3.120581
2 3.052488 2.978616 3.187223 3.158112 3.242822
3 3.085311 2.423291 3.208973 3.106708 3.327511
4 2.966113 3.646287 3.149190 3.173600 3.245839
dataclusters = data_sums.groupby('clusters').mean()
plt.figure(figsize=(22,3))
for i in range(0, 5):
    plt.subplot(1,5,i+1)
    plt.bar(dataclusters.columns, dataclusters.iloc[:, i], color='green', alpha=0.2)
    plt.plot(dataclusters.columns, dataclusters.iloc[:, i], color='red')
    plt.title('Cluster ' + str(i))
    plt.xticks(rotation=45)
    plt.ylim(0,4);

image.png


3.4 可视化群集预测


from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca_fit = pca.fit_transform(df_model)
df_pca = pd.DataFrame(data=pca_fit, columns=['PCA1', 'PCA2'])
df_pca['Clusters'] = predictions
df_pca.head()
.dataframe tbody tr th:only-of-type {         vertical-align: middle;     } .dataframe tbody tr th {     vertical-align: top; } .dataframe thead th {     text-align: right; }

PCA1 PCA2 Clusters
0 -5.378080 -1.291992 3
1 0.371977 3.173612 2
2 -0.544830 2.236540 2
3 1.006574 0.028349 1
4 -4.449206 2.927122 3
plt.figure(figsize=(10,10))
sns.scatterplot(data=df_pca, x='PCA1', y='PCA2', hue='Clusters', palette='Set2', alpha=0.8)
plt.title('Personality Clusters after PCA');

image.png


3.5 了解我自己


我会属于哪个类别。

my_data = pd.read_excel('my_personality.xlsx')
my_personality = k_fit.predict(my_data)
print('我的个性分类: ', my_personality)
我的个性分类:  [1]
# 答案分组情况
col_list = list(my_data)
ext = col_list[0:10]
est = col_list[10:20]
agr = col_list[20:30]
csn = col_list[30:40]
opn = col_list[40:50]
my_sums = pd.DataFrame()
my_sums['extroversion'] = my_data[ext].sum(axis=1)/10
my_sums['neurotic'] = my_data[est].sum(axis=1)/10
my_sums['agreeable'] = my_data[agr].sum(axis=1)/10
my_sums['conscientious'] = my_data[csn].sum(axis=1)/10
my_sums['open'] = my_data[opn].sum(axis=1)/10
my_sums['cluster'] = my_personality
print('我的问题组总数')
my_sums
我的问题组总数
.dataframe tbody tr th:only-of-type {         vertical-align: middle;     } .dataframe tbody tr th {     vertical-align: top; } .dataframe thead th {     text-align: right; }

extroversion neurotic agreeable conscientious open cluster
0 2.8 2.7 3.0 3.3 3.4 1
my_sum = my_sums.drop('cluster', axis=1)
plt.bar(my_sum.columns, my_sum.iloc[0,:], color='green', alpha=0.2)
plt.plot(my_sum.columns, my_sum.iloc[0,:], color='red')
plt.title('Cluster 2')
plt.xticks(rotation=45)
plt.ylim(0,4);

image.png


目录
相关文章
|
人工智能 自然语言处理 安全
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
172 0
使用python将数据集划分为训练集、验证集和测试集
使用python将数据集划分为训练集、验证集和测试集
|
1月前
|
机器学习/深度学习 JSON 算法
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
本文详细介绍了使用YOLOv5-Seg模型进行图像分割的完整流程,包括图像分割的基础知识、YOLOv5-Seg模型的特点、环境搭建、数据集准备、模型训练、验证、测试以及评价指标。通过实例代码,指导读者从自定义数据集开始,直至模型的测试验证,适合深度学习领域的研究者和开发者参考。
381 3
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
|
1月前
|
机器学习/深度学习 JSON 算法
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
本文介绍了DeepLab V3在语义分割中的应用,包括数据集准备、模型训练、测试和评估,提供了代码和资源链接。
185 0
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
|
1月前
|
机器学习/深度学习 算法 PyTorch
目标检测实战(五): 使用YOLOv5-7.0版本对图像进行目标检测完整版(从自定义数据集到测试验证的完整流程)
本文详细介绍了使用YOLOv5-7.0版本进行目标检测的完整流程,包括算法介绍、环境搭建、数据集准备、模型训练、验证、测试以及评价指标。YOLOv5以其高精度、快速度和模型小尺寸在计算机视觉领域受到广泛应用。
418 0
目标检测实战(五): 使用YOLOv5-7.0版本对图像进行目标检测完整版(从自定义数据集到测试验证的完整流程)
|
机器学习/深度学习 人工智能 数据可视化
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
463 1
|
6月前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
122 0
|
6月前
|
机器学习/深度学习 算法 异构计算
yolov7训练自己的数据集(pycharm上训练测试)
yolov7训练自己的数据集(pycharm上训练测试)
217 0
|
6月前
|
SQL 分布式计算 DataWorks
dataworks数据集问题之测试联通性报错如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
|
SQL XML JSON
使用 Data Assistant 快速创建测试数据集
Data Assistant 提供超过 100 种数据类型,为任何开发、测试或演示目的生成大量、异构、真实的数据。
92 0
使用 Data Assistant 快速创建测试数据集