开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI 目前卡在数据和dlc任务执行上,该怎么解决这个问题呢?

机器学习PAI需求是跑通上面的deepfm示例的训练任务部署 目前卡在数据和dlc任务执行上,该怎么解决这个问题呢?

展开
收起
冰激凌甜筒 2023-04-18 15:50:58 264 0
2 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    如果您在进行 DeepFM 示例的训练任务部署过程中遇到了数据和 DLC 任务执行方面的问题,请按照以下步骤进行排查和解决:

    1. 确认数据存储位置是否正确,如果您选择将数据存储在 OSS 上,则需要提前创建 OSS Bucket,并将文件上传至对应的 Bucket 上。如果您选择将数据存储在 E-MapReduce 集群中,则需要确保 EMR 集群已经正确创建,并且数据已经正确上传至集群中;
    2. 确认 DLC 任务执行参数是否正确,特别是镜像名称、训练脚本路径以及其他训练参数等是否正确配置;
    3. 确认 DLC 任务执行过程中是否出现了错误信息,建议查看 DLC 任务的日志信息和其他相关错误信息,以便找到问题所在;
    4. 如果以上步骤无法确定问题所在,建议参考阿里云的官方文档和示例代码进行进一步调试和排查。
    2023-04-30 13:15:59
    赞同 展开评论 打赏
  • 前面那个文档不是执行在DLC上的,PAI命令需要在Designer或者DataWorks上运行,实际的执行环境在MaxCompute,文档里的数据也是MaxCompute表名,是个公共表。PAI-TF命令执行参考:https://help.aliyun.com/document_detail/154185.html?spm=a2c4g.154184.0.0.e13238cbdO8MIM 如果要用容器方式执行,可以在DSW Gallery里搜索一下DeepFM,有对应的案例代码。参考:https://pai.console.aliyun.com/?regionId=cn-shanghai#/dsw-gallery/preview/deepLearning/rec/easyRecDeepFM,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”

    2023-04-18 17:46:55
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    机器学习及人机交互实战 立即下载