机器学习PAI、PAI-Designer、PAI-DSW、PAI-EAS中想用【图像分类训练】的组件的话,如果数据转tfrecord组件的上游如果是oss来源的话,原始数据在oss中的应该是什么样的呢?每个类别分别在一个文件夹中名称以类别名称命名还是?图像分类训练(torch)对上传的预训练模型有什么要求呢,总是The model and loaded state dict do not match exactly,数据集比较简单,不上传时效果也很差。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
首先,对于PAI平台中的图像分类训练组件,如果数据来源于OSS,其目录结构通常应该是每个类别一个文件夹,文件夹名称使用类别的名称。在每个类别文件夹中,应该包含该类别的所有图像。这种目录结构的好处是使得数据集更加有组织和易于管理。
其次,对于图像分类训练(torch)组件,要求上传的预训练模型与要训练的模型具有相同的网络架构,即二者都应该是相同的深度学习网络模型。此外,确保上传的预训练模型是经过预处理的,即与训练数据集相同的预处理步骤。
最后,如果您的数据集比较简单,模型的表现也不理想,您可以尝试使用已经经过预训练的模型来进行微调。这样做通常会提高模型的性能,因为已经经过预训练的模型已经具有强大的特征提取能力。同时,还可以尝试使用数据增强技术来扩增数据集,以帮助模型更好地泛化。
在阿里云机器学习PAI、PAI-Designer、PAI-DSW、PAI-EAS中使用【图像分类训练】组件,如果数据转tfrecord组件的上游是oss,需要保证数据集的格式满足以下要求:
每个类别的图像数据应该放在一个单独的文件夹中,文件夹的名称应该与类别名称一致。
每个图像文件应该包含一个标签,标签的值应该与图像所在文件夹的名称一致。
所有图像文件应该放在同一个根目录下,并且根目录下不应该包含其他文件夹或者文件。
例如,如果有3个类别(猫、狗、鸟),则可以将所有猫的图像放在一个名为“cat”的文件夹中,所有狗的图像放在一个名为“dog”的文件夹中,所有鸟的图像放在一个名为“bird”的文件夹中。然后将这3个文件夹上传到oss中,作为数据转tfrecord组件的输入。
对于上传的预训练模型,需要保证模型的结构和训练时所使用的结构完全一致。如果模型结构不一致,则会出现“The model and loaded state dict do not match exactly”的错误。如果数据集比较简单,效果较差,可以尝试增加数据量、调整模型结构或者使用其他的预训练模型来提高模型的准确率。
评论
全部评论 (0)
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。
评论
全部评论 (0)