在机器学习PAI我们每天写前一天的数据到pt里,然后全量数据同步前30天,是怎么同步的?

在机器学习PAI我们每天写前一天的数据到pt里,然后全量数据同步前30天,是怎么同步的?是从当前时间往前推30个pt吗?还是说,一个pt存储前30天的数据?lQLPKc3XzNks6SvNAYzNAZ6w4aPR7qKyd5wGmzpjPORVAA_414_396.png
lQLPJxroXHCc2SvNAZbNAdqw3e9RJozK2zoGmzpjPORVAQ_474_406.png

展开
收起
三分钟热度的鱼 2024-08-14 20:29:27 54 发布于安徽 分享
分享
版权
举报
2 条回答
写回答
取消 提交回答
  • 资深 C++与人工智能程序员。精通 C++,善用其特性构建稳健架构。在人工智能领域,深入研习机器学习算法,借 C++与 OpenCV 等实现计算机视觉应用,于自然语言处理构建文本处理引擎。以敏锐洞察探索技术融合边界,用代码塑造智能未来。

    在机器学习PAI中,将全量数据同步前30天,通常有以下几种方法:

    使用DataX工具同步

    DataX是阿里巴巴开源的数据同步工具,可以将HBase、Mysql、HDFS等不同类型的数据同步成统一格式。可以配置DataX任务,指定源数据存储位置(如MaxCompute表、OSS文件等)和目标存储位置(如PAI的PT表),并设置同步的时间范围为前30天,DataX会按照配置将数据从源端全量同步到目标端。

    通过MaxCompute SQL实现

    如果数据存储在MaxCompute中,可以利用MaxCompute SQL的INSERT OVERWRITE语句来实现全量数据同步。例如,假设每天的数据都有一个日期分区,可以使用类似 INSERT OVERWRITE TABLE target_table PARTITION (pt='${date}') SELECT * FROM source_table WHERE date BETWEEN '${date-29}' AND '${date}' 的SQL语句,其中 ${date} 为当前日期,通过调度任务每天执行该SQL,即可将前30天的数据全量同步到指定的PT分区中。

    借助PAI-EAS等服务的集成功能

    如果使用PAI-EAS等模型部署和服务化平台,平台可能提供了与数据存储和同步相关的集成功能。可以在PAI-EAS的任务配置或数据管理界面中,设置数据同步的规则和时间范围,将前30天的数据从数据源同步到PAI-EAS所使用的存储中,供模型训练和预测使用。

    利用DataWorks进行调度同步

    DataWorks是阿里云的数据集成和调度平台,可以创建数据同步任务,并通过调度配置来实现定期全量同步前30天的数据。在DataWorks中,可以配置任务的依赖关系、调度周期等,确保数据按照每天的节奏,将前30天的数据准确同步到PT表中。

    2025-01-16 12:06:50 举报
    赞同 评论

    评论

    全部评论 (0)

    登录后可评论
  • 从填写的分区值开始(包含),往前推30天,所有数据同步的时候fs会进行整合去重,然后写入在线数据源 ,可以在 运行配置 的 任务运行配置,看到具体运行的sql语句。 此回答整理自钉群“PAI-FeatureStore特征平台应用交流”

    2024-08-14 21:00:38 举报
    赞同 11 评论

    评论

    全部评论 (0)

    登录后可评论

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

还有其他疑问?
咨询AI助理