开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI数据在maxcompute上,如何用阿里云上租的机器训练?

问题一:机器学习PAI数据在maxcompute上,如何用阿里云上租的机器训练?这有什么不用下载数据的办法吗? 问题二:没有开通PAI,就只能下载了?

展开
收起
冰激凌甜筒 2023-05-29 21:01:16 98 0
3 条回答
写回答
取消 提交回答
  • 值得去的地方都没有捷径

    问题1:

    在阿里云上训练机器学习模型,可以使用MaxCompute进行数据存储和计算,以下是使用MaxCompute训练模型的步骤:

    将数据上传到MaxCompute中存储。

    在阿里云上创建一台云服务器(可以是ECS或GPU实例),并安装相应的机器学习框架和工具,例如TensorFlow、PyTorch等。

    连接到MaxCompute数据源,并使用机器学习框架中的API从MaxCompute中加载数据。

    训练模型并保存模型参数。

    可以使用为您的模型创建的推理服务,将已经保存好的模型参数部署到云上进行预测。

    另外,如果您不想下载数据,可以直接使用DataWorks来处理MaxCompute上的数据。您可以在DataWorks中创建机器学习任务进行训练模型,然后将模型参数导出并部署到云上进行预测。

    问题2:

    如果您没有开通PAI服务,则无法使用PAI提供的云上计算资源进行训练。但是,您可以使用阿里云提供的其他服务来训练机器学习模型,例如MaxCompute、ECS或GPU实例等。

    2023-05-30 19:32:18
    赞同 展开评论 打赏
    1. 如果你的机器学习 PAI 数据在阿里云的 MaxCompute 上存储,可以使用 MaxCompute 的 SDK 从 MaxCompute 中读取数据,然后导入到你租用的阿里云机器上进行训练。MaxCompute 的 SDK 提供了多种编程语言的接口,例如 Java、Python、Go 等,你可以根据自己的编程语言和技能进行选择和操作。更具体的操作步骤和示例可以参考阿里云官方文档。

    如果你的机器学习 PAI 数据过大,不能全部读取到阿里云的机器中,可以使用分布式计算框架,例如 MapReduce 或 Spark 等,将数据并行地从 MaxCompute 中读取到多台机器中进行训练。

    1. 如果你还没有开通机器学习 PAI 服务,就只能从 MaxCompute 中把数据下载到本地进行训练。你可以使用 MaxCompute 的 Tunnel 工具,将 MaxCompute 中的数据下载到本地,然后通过你本地的计算机进行训练。Tunnel 工具也提供了多种编程语言的使用接口,例如 Java、Python、Go 等,也可以根据自己的编程语言和技能进行选择和操作。更具体的操作步骤和示例也可以参考阿里云官方文档。
    2023-05-30 08:48:42
    赞同 展开评论 打赏
  • 针对问题一的回答:要么 1.在MC上用paicmd训练 https://easyrec.readthedocs.io/en/latest/quick_start/mc_tutorial.html

    1. 要么就是下载mc tunnel download。。。 https://help.aliyun.com/document_detail/27833.html https://easyrec.readthedocs.io/en/latest/quick_start/local_tutorial.html 针对问题二的回答:没有开通,可以下载到服务器上和单机训练一样。开通PAI,资源使用都是和MC或者云服务器一致的,分布式训练的链路体验会比较,此回答整理自钉群“【EasyRec】推荐算法交流群”
    2023-05-29 21:51:03
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    机器学习及人机交互实战 立即下载