问题一:机器学习PAI训练文件配置,一个合并好的csv文件和几十个小的csv文件,在训练上会有差异吗?
机器学习PAI训练文件配置,一个合并好的csv文件和几十个小的csv文件,在训练上会有差异吗?
参考答案:
机器学习PAI训练文件配置中,使用一个合并好的CSV文件和几十个小的CSV文件可能会有一些差异。以下是一些可能会影响的因素:
- 训练时间:在一个大型的CSV文件上进行训练可能需要更长的时间,因为模型需要处理更多的数据。相反,几十个小的CSV文件可能会更快地完成训练,因为每个文件都比较小。
- 数据分布:一个大型的CSV文件可能会包含更多不同的样本和变量,这可能会使模型更容易捕捉到潜在的关系和模式。相比之下,小的CSV文件可能会导致数据更加分散和稀疏,从而降低模型的准确性。
- 数据冗余:如果一个大型的CSV文件是由多个小文件合并而成的,可能会包含大量的冗余数据。在这种情况下,使用小文件可能会减少数据冗余并提高训练效率。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566662
问题二:机器学习PAI我训练的AUC 0.7左右,这个效果是不是很差了?
机器学习PAI我训练的AUC 0.7左右,这个效果是不是很差了?业界一般的我看都是0.8-0.9之间,数据量是百万级的样本
参考答案:
楼主你好,一般来说业界的AUC评估结果是在0.8到0.9之间,但恰当的评估指标取决于你正在解决的问题,以及你的数据,但是如果你觉得AUC 0.7并不能满足你的需求,你可以尝试调整模型参数,增加训练数据量等来提高效果。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566661
问题三:机器学习PAI EasyRec中的eval_config能否设置比例?
机器学习PAI EasyRec中的eval_config能否设置比例?将测试集跟验证集划分,而不是按照固定的数量
参考答案:
EasyRec不区分测试机和验证集,训练时候建议在比较小的验证集上验证auc,防止过拟合; 在测试集上评估建议用离线预测,然后用pai auc组件评估
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566660
问题四:机器学习PAI EasyRec中的eval_config怎么用?
机器学习PAI EasyRec中的eval_config怎么用?给一个具体案例
参考答案:
根据已知的概念信息中的描述,可以得知eval_config是EasyRec中的一个参数,它的类型是EvalConfig,是可选的参数。根据已知的参考内容信息中的示例,可以看到eval_config的具体使用方式如下:eval_config {
num_examples: 1000
metrics_set: {
auc {}
}
}
在这个例子中,eval_config被用于设置评估的配置信息。其中,num_examples表示评估时使用的样本数量为1000个,metrics_set表示评估时使用的指标集合,这里使用的是auc指标。
所以,你可以根据自己的需求来设置eval_config参数,例如设置不同的样本数量和指标集合,以满足你的评估需求。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566658
问题五:机器学习PAI测试集跟验证集怎么划分的?
机器学习PAI测试集跟验证集怎么划分的?
参考答案:
在EasyRec中,一个eval_path可以通过编辑配置文件中的eval_config.num_examples参数来划分成两个验证集和测试集。可以设置评估的样本数量来划分数据集。不建议设置eval_config.num_examples,不设置时默认评估整个测试集。
关于本问题的更多回答可点击进行查看: