想请教一个机器学习PAI问题，我看pai上面，直接写output table的表名分区之类的？

想请教一个机器学习PAI问题，我看pai上面，直接写output table的表名分区之类的，这个分区的create是在什么时候做的啊？表create完了，有分区，在没有具体某天的分区的时候，写数据，
tunnel.create_upload_session
会传入分区，导致报错。
所以想问下PAI上的流程，是在什么时候建了对应日期的分区。就是想问下你们PAI上是什么时候建的啊？因为easyrec里面好像没看到

展开

收起

真的很搞笑 2023-10-19 07:14:27 177 版权

3 条回答

写回答

取消提交回答

Star时光
在PAI上，分区是在数据加载时创建的。当使用create_upload_session方法创建上传会话时，PAI会自动创建一个包含指定分区的数据加载任务。当数据加载任务完成后，对应的分区就会被创建。
如果你想在没有具体某天的分区的时候，仍然能够将数据上传到PAI，可以尝试使用create_table方法先创建一个表，然后在使用create_upload_session方法创建上传会话时，指定这个表作为上传目标。这样，即使这个表还没有分区，PAI也会自动在数据加载任务完成后创建对应的分区。
需要注意的是，PAI上的分区是基于时间的，每个分区都包含在指定时间范围内的数据。因此，在使用create_upload_session方法创建上传会话时，需要指定一个时间范围作为分区条件。例如，如果你想将最近7天的数据上传到PAI，可以使用create_upload_session方法的partition_info参数来指定分区条件，如下所示：
```
partition_info = {
    'partition_column': 'date',
    'partition_values': ['2022-03-01', '2022-03-02', '2022-03-03', '2022-03-04', '2022-03-05', '2022-03-06', '2022-03-07']
}
tunnel.create_upload_session(partition_info=partition_info)
```
在这个例子中，我们使用create_upload_session方法的partition_info参数指定了分区条件，即日期为2022-03-01到2022-03-07的数据。这样，PAI就会自动创建一个包含这7天数据的分区，并将数据加载到这个分区中。
2023-10-19 21:49:26

赞同展开评论
听风de歌

在机器学习PAI中，创建分区是在用户在创建数据表时指定的。当用户创建数据表时，他们可以指定表的分区方式（如日期、时间、哈希等）和分区字段（如日期、时间、用户ID等）。然后，PAI会根据这些信息自动创建分区，并将数据表分区到不同的分区中。
当用户写入数据时，他们需要指定数据所在的分区。如果用户没有指定分区，PAI会自动将数据写入默认分区。如果用户指定的分区不存在，PAI会自动创建这个分区。
如果你在PAI上使用EasyRec，并且遇到了分区创建错误，你可能需要检查你的数据表配置，确保你的分区信息正确。

2023-10-19 09:45:00

赞同展开评论
芯在这

EasyRec写数据是通过insert overwrite table时指定分区的，此时会自动创建分区。如果要用upload的方式指定不存在的分区就会报错。，此回答整理自钉群“【EasyRec】推荐算法交流群”

2023-10-19 08:57:34

赞同展开评论

想请教一个机器学习PAI问题，我看pai上面，直接写output table的表名分区之类的？

人工智能平台PAI

相关文章

热门讨论

热门文章