一、题目
●本实验旨在通过某种患病病人的临床数据和体检指标来预测人群指示病情程度的指标。
●需要设计高效,且解释性强的算法来精准预测病情指标。
●全部编程实现。
二、数据-任务I
●实验任务数据为训练集文件d_train.csv, 测试集d_test.csv
●每个文件第一行是字段名,之后每一行代表一个个体。
●训练集文件共包含42个字段,包含数值型、字符型、日期型等众多数据类型,部分字段内容在部分人群中有缺失,其中第一列为个体id号。
●训练集文件的最后一列为标签列, 既需要预测的目标值。
●测试集文件的标签列为空,需要将预测结果上传至Kaggle。
●提交说明:提交一个d_model.py即预测的模型文件。
二、数据-任务II
●实验任务丌数据为训练集文件f_train.csv, 测试集文件f_test.csv
●每个文件第一行是字段名,之后每一行代表一个个体,部分字段名已做脱敏处理。
●训练集文件共包含85个字段,部分字段内容在部分人群中有缺失,其中第一列为个体id号。
●训练集文件的最后一列为标签列, 既需要预测的是否患病的类标。
●测试集文件的标签列为空,需要将预测结果上传至Kaggle。
●提交说明:提交一个f_ model.py即预测的模型文件。
三、评估指标一任务I
●对于任务I,需要提交对每个人的指标预测结果,以小数形式表示,保留小数点后三位。该结果将与个体实际检测到的结果进行对比,以均方误差为评价指标,结果越小越好,均方误差计算公式如下:
●其中n为总人数, yi^为预测的第i个人的指标值, yi为第i个人的实际指标检测值。
三、评估指标一任务II
●对于任务II,需要提交对每个人是否患病的预测结果,以整数形式表示类别,取值为0或者1。该结果将与个体实际检测到的是否患病情况进行对比,以F1为评价指标,结果越大越好,F1计算公式如下:
●其中P为准确率,计算公式如下:
●R为召回率,计算公式如下:
其中正样本数定义为数值为1的样本数。