上述图片机器学习PAI中这个问题怎么解决?

1c8d003a576a1020a35ea9d0ab96f489.png 执行ce0b094e0be5272dae6ae50faeb01040.png 上述图片机器学习PAI中这个问题怎么解决?

展开
收起
冰激凌甜筒 2023-05-22 20:09:53 179 分享 版权
阿里云 AI 助理回答

在解决机器学习PAI中与图片相关的任务问题时,可以参考以下步骤和建议。根据您提供的知识库资料,以下是针对常见问题的解决方案:

1. 训练任务失败的排查方法

如果在执行图片相关的机器学习任务时遇到训练任务失败的情况,可以按照以下步骤进行排查:

查看任务诊断

  • 在PAI-Model Gallery的任务管理中找到具体的训练任务,点击进入任务详情页。
  • 将鼠标悬停在“失败”状态上,系统会显示错误原因及解决办法。

查看任务日志

  • 在任务管理中找到具体的训练任务,点击进入任务日志页。
  • 根据日志中的错误信息进行排查。常见的错误类型及解决办法包括:
    • 输入/输出错误:检查路径是否正确、文件格式是否符合要求、是否有读写权限。
    • 超参数配置相关:内存不足时选择更高配置的机型,显存不足时调整超参数或选择更高配置的GPU机型。
    • 机型资源配置相关:选择合适的GPU架构,确保有足够的内存和显存。
    • 用户限制相关:超出资源限制时,等待现有任务完成或申请增加配额。

2. 在线调试已部署的模型

如果您已经部署了模型并希望对其进行在线调试,可以按照以下步骤操作:

  1. 查看已部署的服务

    • 在PAI-Model Gallery的任务管理中找到已部署的任务,查看服务详情。
  2. 进入EAS页面进行在线调试

    • 在EAS页面中找到已部署的服务,点击“操作”列的“在线调试”。
  3. 配置在线调试请求参数

    • 参考模型介绍页面的调用方法,配置请求参数。例如,通过BladeLLM方式部署的模型,可以通过向/v1/completions路径发送HTTP POST请求来调用模型。
    • 请求URL后追加/v1/completions,并在请求Body中添加相应的参数。

3. 智能标注页面报错 param invalid UserNotInTnt

如果在使用PAI智能标注页面时遇到 param invalid UserNotInTnt 错误,可以尝试以下操作:

  1. 先设置工作空间的管理员,再在iTag的人员管理页面,将对应的RAM账号设置为管理员。
  2. 如果iTag是其他子账号创建的,可以让对应的子账号把主账号加进去。
  3. AI工作空间时间较久,可以再创建另外一个AI工作空间来使用iTag。
  4. 更多授权操作参见为PAI-iTAG授权。

4. 报错 INPUT_FORMAT_ERROR

如果在执行任务时遇到 INPUT_FORMAT_ERROR 错误,可以尝试以下几种操作:

  1. json.dumps(datas) 将数据转换为字符串。
  2. 本地命令行调试时的报错,尝试使用Postman发送请求。
  3. 目标检测模型部署时的报错,可以尝试减小图片大小。

5. 上传大文件失败

如果在上传大文件时遇到问题,可以参考以下解决方案:

  • 控制台上传模型大小限制为5 GB,且上传大文件时间较长,存在网络或浏览器等问题,上传大文件可能会报错。您可以通过以下两种方式解决:
    • 方式一:使用图形化管理工具OSS Browser:获取存储Bucket、AccessKey ID和AccessKey Secret,安装并登录OSS Browser,上传文件到对应的目录。
    • 方式二:使用命令行上传工具ossutil:具体操作请参见相关文档。

6. DSW实例无法启动

如果遇到DSW实例无法启动的问题,可以参考以下解决方案:

  • 问题:机器学习平台DSW实例无法启动,报错:InternalError-Fail to create SP order: error message Fail to create order, please try again later

    • 原因:用户账号有触发风控,需要解决风控问题。
    • 解决方案:申诉:账号持有人手持证件。
  • 问题:DSW实例无法启动,提示:请先进行实名认证后,再使用DSW服务。但是其实客户已经实名认证过。

    • 原因:探索者版DSW实例实名认证,是需要天池侧实名认证。
    • 解决方案:根据提示,跳转到天池做实名认证即可。

7. 下载资源很慢

如果在DSW中下载资源很慢,可以参考以下建议:

  • PAI-DSW目前是一个很开放的执行环境,用户可以在其中下载互联网上的资源,例如镜像、代码、图片、视频等等,下载速度受网络以及资源来源影响。偶尔的下载超时可以重试解决。
  • 建议用户可以先将所需数据或模型等资源准备好,上传至OSS或者NAS上,挂载到DSW来直接使用,可以降低在实例中进行下载的等待时间。

8. 模型部署与更新

如果在模型部署时遇到无模型可部署的情况,需在Designer工作流画布中找到对应算法组件,选中“是否生成PMML”复选框,并在“工作流属性”中配置“临时模型存储路径”,然后重新运行该节点。

9. 自动更新EAS模型服务

为了实现每次运行自动更新EAS模型服务,您可以通过使用更新EAS服务组件,在其“参数设置”页签下填写需要更新的EAS服务名称。执行工作流时,系统会自动获取上游运行成功的OSS模型路径并更新EAS服务。

10. 数据上传与处理

  • 小于1GB的CSV文件:使用“读CSV文件”组件直接上传。
  • 大于1GB的CSV文件:先上传至OSS Bucket,再使用“读CSV文件”组件读取。
  • 使用DataWorks:在DataWorks的数据开发中进行建表和数据上传。

11. 异常指标监控

如果需要对平台异常指标进行监控,PAI提供了一套基于指标监控的分类算法,将异常指标监控抽象为二分类场景,并将监控模型部署至在线系统,从而实现近线风控。


以上是针对图片机器学习PAI中常见问题的解决方案。根据具体问题,您可以选择相应的步骤进行排查和解决。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

还有其他疑问?
咨询AI助理