想请教一个机器学习PAI问题,我看pai上面,直接写output table的表名分区之类的?

想请教一个机器学习PAI问题,我看pai上面,直接写output table的表名分区之类的,这个分区的create是在什么时候做的啊?表create完了,有分区,在没有具体某天的分区的时候,写数据,
tunnel.create_upload_session
会传入分区,导致报错。
所以想问下PAI上的流程,是在什么时候建了对应日期的分区。就是想问下你们PAI上是什么时候建的啊?因为easyrec里面好像没看到

展开
收起
真的很搞笑 2023-10-19 07:14:27 80 分享 版权
3 条回答
写回答
取消 提交回答
  • 在PAI上,分区是在数据加载时创建的。当使用create_upload_session方法创建上传会话时,PAI会自动创建一个包含指定分区的数据加载任务。当数据加载任务完成后,对应的分区就会被创建。
    如果你想在没有具体某天的分区的时候,仍然能够将数据上传到PAI,可以尝试使用create_table方法先创建一个表,然后在使用create_upload_session方法创建上传会话时,指定这个表作为上传目标。这样,即使这个表还没有分区,PAI也会自动在数据加载任务完成后创建对应的分区。
    需要注意的是,PAI上的分区是基于时间的,每个分区都包含在指定时间范围内的数据。因此,在使用create_upload_session方法创建上传会话时,需要指定一个时间范围作为分区条件。例如,如果你想将最近7天的数据上传到PAI,可以使用create_upload_session方法的partition_info参数来指定分区条件,如下所示:

    partition_info = {
        'partition_column': 'date',
        'partition_values': ['2022-03-01', '2022-03-02', '2022-03-03', '2022-03-04', '2022-03-05', '2022-03-06', '2022-03-07']
    }
    tunnel.create_upload_session(partition_info=partition_info)
    

    在这个例子中,我们使用create_upload_session方法的partition_info参数指定了分区条件,即日期为2022-03-01到2022-03-07的数据。这样,PAI就会自动创建一个包含这7天数据的分区,并将数据加载到这个分区中。

    2023-10-19 21:49:26
    赞同 展开评论
  • 在机器学习PAI中,创建分区是在用户在创建数据表时指定的。当用户创建数据表时,他们可以指定表的分区方式(如日期、时间、哈希等)和分区字段(如日期、时间、用户ID等)。然后,PAI会根据这些信息自动创建分区,并将数据表分区到不同的分区中。
    当用户写入数据时,他们需要指定数据所在的分区。如果用户没有指定分区,PAI会自动将数据写入默认分区。如果用户指定的分区不存在,PAI会自动创建这个分区。
    如果你在PAI上使用EasyRec,并且遇到了分区创建错误,你可能需要检查你的数据表配置,确保你的分区信息正确。

    2023-10-19 09:45:00
    赞同 展开评论
  • EasyRec写数据是通过insert overwrite table时指定分区的,此时会自动创建分区。如果要用upload的方式指定不存在的分区就会报错。,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-10-19 08:57:34
    赞同 展开评论

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

还有其他疑问?
咨询AI助理