机器学习PAI常见问题之将MaxCompute方法设置成永久如何解决

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。

问题一:机器学习PAI实时训练在MaxCompute上拉起训练 这是新建一个怎样的任务啊? 调度怎样配啊?


机器学习PAI实时训练在MaxCompute上拉起训练

这是新建一个怎样的任务啊?

调度怎样配啊?


参考回答:

参考此文档https://easyrec.readthedocs.io/en/latest/online_train.html


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/598029


问题二:机器学习PAI实时训练的export怎么做的啊?


机器学习PAI实时训练的export怎么做的啊?


参考回答:

在机器学习PAI实时训练中,导出模型通常涉及到将训练好的模型保存并转移到其他位置,例如上传到OSS(对象存储服务)等。以下是进行模型导出的一般步骤:

  1. 配置模型导出:您需要通过SQL脚本或DataWorks的ODPS SQL节点来执行PAI命令,配置模型导出的相关参数。这些参数包括模型的格式、重命名、是否覆盖以及目标OSS路径等。
  2. 执行导出操作:在PAI平台上,根据提供的组件和命令,执行模型导出操作。这通常涉及到指定模型的名称、项目名称以及目标存储路径等信息。
  3. 确认模型导出:导出完成后,您可以在指定的OSS路径中查看模型文件,确认模型是否已经成功导出。
  4. 部署模型:如果您需要将模型用于实时预测,可以使用机器学习模型在线部署功能,将模型一键部署为Restful API,然后通过HTTP请求的方式进行调用。
  5. 测试模型:部署完成后,进行必要的测试,确保模型能够正确响应API请求并返回预测结果。

总之,在进行模型导出和部署的过程中,请确保您有足够的权限访问相关的存储服务和API接口。此外,根据您的具体需求,可能还需要进行额外的配置和优化,以确保模型的性能和稳定性。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/598030


问题三:机器学习PAI有沒有非在線類的ML案例該如何運用FeatureStore嗎?


机器学习PAI有沒有非在線類的ML案例該如何運用FeatureStore嗎?

比方說, 我想用XGBoost訓練一個簡單的離線Classifier, 所以我的data不用real time,也不用online,有案例分享嗎?


参考回答:

当然可以。尽管阿里云机器学习PAI FeatureStore 主要设计用于实时和在线机器学习场景,但它同样适用于离线训练场景。在离线机器学习场景中,我们可以通过FeatureStore有效地管理和组织特征数据,以供离线训练时使用。以下是一个简化的例子,描述如何在离线环境中使用PAI FeatureStore:

  1. 数据摄取与特征注册
  • 将历史数据或离线数据导入到PAI FeatureStore中。这一步可以通过DataWorks、DataHub等工具完成数据的清洗、转换和加载。
  • 注册所需的特征,将原始数据中的关键特征字段映射到FeatureStore中,方便后续抽取和组合。
  1. 特征集构建
  • 在FeatureStore中定义特征集(Feature Groups),将相关的特征字段组合在一起,形成可供训练使用的特征集合。
  1. 特征查询与特征工程
  • 在进行离线训练之前,使用PAI FeatureStore API 或者配套工具查询所需的特征数据,根据训练批次或时间窗口获取特征集。
  • 如果需要进行特征衍生或特征工程,可以在获取特征数据之后,在本地或者PAI Notebook中完成,然后合并成训练所需的完整特征数据集。
  1. 模型训练
  • 使用XGBoost或其他机器学习框架,结合从FeatureStore获取的离线特征数据进行分类器模型的训练。
  1. 模型评估与迭代
  • 训练结束后,评估模型性能,如果需要进行模型迭代,可以根据反馈再次从FeatureStore获取新的特征数据或调整特征工程策略。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/598270


问题四:机器学习PAI中MaxCompute有方法成為永久的嗎?


机器学习PAI中MaxCompute作為Store是有Life time days, 有方法成為永久的嗎?


参考回答:

在阿里巴巴的机器学习平台PAI(Platform of Artificial Intelligence)中,MaxCompute(原名ODPS,Open Data Processing Service)是一个用于大数据处理的计算服务。在MaxCompute中,数据通常存储在表(Table)中,而这些表可以有一个生命周期(Life Time),即数据在存储一定时间后可能会被自动删除。

生命周期的设置是为了管理存储空间和避免不必要的数据积累。然而,如果你希望某些数据在MaxCompute中是永久的,即不受生命周期的影响,你可以采取以下策略:

  1. 不设置生命周期:对于不希望被自动删除的数据表,你可以不为其设置生命周期。这样,数据将一直保持在MaxCompute中,直到你显式地删除它。
  2. 使用归档存储:MaxCompute提供了归档存储的功能,允许你将不再频繁访问但需要长期保存的数据移动到成本更低的存储中。这样,你可以既节省存储成本,又确保数据不会因生命周期而被删除。
  3. 定期备份数据:如果你担心数据丢失,可以定期将数据从MaxCompute导出并存储在其他地方(如本地文件系统、对象存储等)。这样,即使MaxCompute中的数据因生命周期或其他原因被删除,你仍然可以从备份中恢复。
  4. 使用其他持久化存储解决方案:如果你需要更高级别的数据持久性和管理功能,可以考虑使用其他的数据存储解决方案,如分布式文件系统(如HDFS)或对象存储服务(如阿里云OSS)。这些服务通常提供更灵活的数据管理选项,包括数据生命周期管理和数据备份。

请注意,长期存储大量数据可能会产生显著的成本,因此在决定如何管理你的数据时,务必考虑存储成本和业务需求之间的平衡。同时,定期审查和更新你的数据管理策略也是一个好习惯,以确保它始终与你的业务目标保持一致。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/598271


问题五:机器学习PAI中FeatureStore支持特征transform吗?


机器学习PAI中FeatureStore支持特征transform吗?比如频次这个特征,我需要对它做一些映射处理逻辑,FeatureStore提供这种Transformer逻辑吗?


参考回答:

FeatureStore作为PAI产品中心化的数据管理和共享平台,主要用于组织、存储和管理机器学习和AI训练中使用的特征数据。对于您提到的特征transform(特征转换或特征变换)的需求,FeatureStore确实支持这一功能。

特征转换是机器学习流程中的一个重要环节,它涉及到对原始特征数据进行处理、映射或转换,以得到更适合模型训练的特征。在FeatureStore中,您可以对特征进行各种转换操作,包括但不限于频次特征的映射处理逻辑。

具体来说,您可以使用FeatureStore提供的Transform功能来对特征进行转换。例如,对于频次特征,您可以使用FeatureStore提供的API或工具来定义映射处理逻辑,并将其应用于该特征。这样,FeatureStore将按照您定义的逻辑对频次特征进行转换,并生成新的特征数据供您使用。

需要注意的是,FeatureStore提供的特征转换功能可能因版本或具体实现而有所不同。因此,建议您查阅PAI的官方文档或相关资源,以获取更详细和准确的信息,并了解如何在您的具体环境中使用FeatureStore进行特征转换。

总的来说,机器学习PAI中的FeatureStore支持特征transform,并允许您对特征进行自定义的转换操作,以满足您的机器学习需求。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/598272

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
大数据 数据处理 计算机视觉
使用LabVIEW进行大数据数组操作的优化方法
使用LabVIEW进行大数据数组操作的优化方法
10 3
|
27天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
|
27天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
|
10天前
|
分布式计算 DataWorks API
DataWorks操作报错合集之在将ODPS空间设置成保护模式后,导出到OSS的任务出现了权限问题,该怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
22 1
|
15天前
|
SQL 分布式计算 前端开发
MaxCompute操作报错合集之SQL脚本设置参数set odps.mapred.reduce.tasks=18;没有生效,是为什么
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
15天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用问题之如何设置超时就自动结束一个任务
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
28天前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之如何设置每次返回超过10000行记录
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
24天前
|
机器学习/深度学习 人工智能 算法
【机器学习】机器学习与AI大数据的融合:开启智能新时代
【机器学习】机器学习与AI大数据的融合:开启智能新时代
29 1
|
27天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能平台PAI产品使用合集之如何设置DCluster参数
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
27天前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI