备案控制台

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

请问下机器学习PAI ParquetDataset做shuffle应该如何构建最佳实践呢？

请问下机器学习PAI ParquetDataset做shuffle应该如何构建最佳实践呢？我理解的是ParquetDataset出的dataset已经是batch过的，再设置shuffle_buffer=k应该是缓存了k*batch_size条样本，出来的结果也是batch 之间的shuffle，不同的batch内部并不会有样本的shuffle对吗？

展开

收起

真的很搞笑 2023-11-12 08:43:04 46 0

2 条回答

写回答

取消提交回答

芯在这

对的，是batch级别的shuffle，每个batch内部的样本不做shuffle。Parquet是列存，样本级别shuffle的内存拷贝开销会比较大，此回答整理自钉群“DeepRec用户群”

2023-11-12 16:05:19

赞同展开评论打赏
sunrr

是的，你的理解是正确的。在PAI中使用ParquetDataset时，由于ParquetDataset已经将数据按批次处理，因此再进行shuffle操作时，是在批次之间进行shuffle，而不是在每个批次内部进行shuffle。这样可以保证每个批次内部的样本顺序不变，但不同批次之间的样本顺序会发生变化。

如果你希望在每个批次内部也进行shuffle，你可能需要使用其他的DataSet类型，例如TFRecordDataset或者CSVDataset等，这些数据集类型可以在每个批次内部进行shuffle。

至于shuffle_buffer的设置，它决定了每次shuffle操作的样本数量。较大的shuffle_buffer可以提高shuffle的效果，但也可能会增加计算和存储的开销。因此，你需要根据实际的业务需求和计算资源来进行合理的设置。

2023-11-12 09:08:33

赞同展开评论打赏

问答分类：

机器学习/深度学习缓存人工智能平台 PAI

问答标签：

机器学习人工智能平台 PAI 人工智能平台 PAI pai 人工智能平台 PAI机器学习人工智能平台 PAI构建人工智能平台 PAI最佳实践

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关产品：

人工智能平台 PAI

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

人工智能平台PAI

机器学习PAI的 split和hitrate 怎么使用？

57

4

0

机器学习PAI的AutoML 的使用要开通？

45

3

0

想基于机器学习PAI和maxcompute,hologres 构建实时推荐模型两个产品到底什么关系？

22

1

0

在机器学习PAI按照官方给的最佳实践手册，走到上述步骤「数据同步Hologres」报错，怎么解决？

44

5

0

机器学习PAI HybridBackend 支持tf2吗？我看文档里都是tf1.15的。

36

3

0

目前比较好用的机器学习PAI推荐算法有哪些？

53

2

0

我用机器学习PAI在maxcompute上跑的模型，如果想本地推理怎么办？

52

2

0

机器学习PAI easyrec最新版本是多少？

35

1

0

反馈一个机器学习PAI需求。TagFeature目前的格式解析上，有一种情况，能否通过配置支持？

29

1

0

机器学习PAI中EasyRec里面，这样做的设计初衷是啥？

36

1

0

大数据与机器学习

人工智能平台PAI

我要提问

相关产品

人工智能平台 PAI

文档详情产品详情

热门讨论

热门文章

PAI-DSW重启/创建实例一直提示可用资源不足

在机器学习PAI为什么有的空间看不到数据源：FeautureDB？

机器学习PAI dlc一直卡在预分配怎么解决？没有日志吗？

机器学习PAI现在一直在重试，怎样停掉？

请问机器学习PAI eas服务拉取dockerhub失败怎么办？

请教下机器学习PAI的代码配置没有链接测试吗？

如何高效的往交互建模（dsw）上传较大的文件，有从阿里云盘中直接下载或类似的方法吗？

机器学习PAI有没有pyalink 机器学习实战的开源项目？

灵积平台上，用通义千问的开源大模型接口响应非常慢

机器学习PAI有没有python版本的，从odps读取数据？

展开全部

【CVPR2024】面向StableDiffusion的编辑算法FreePromptEditing，提升图像编辑效果

【玩转数据系列九】机器学习为您解密雾霾形成原因

在PAI Artlab一键实现欧洲杯粉丝专属贴纸制作

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

基于对象特征的推荐

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

使用 PAI-DSW x Free Prompt Editing图像编辑算法，开发个人AIGC绘图小助理

快速玩转 Llama2 机器学习 PAI 最佳实践（一）低代码 Lora 微调及部署

基于阿里云PAI平台搭建知识库检索增强的大模型对话系统

【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024

展开全部

相关课程

更多

PAI平台学习路线：机器学习入门到应用

2429

52

去学习

场景实践 - 机器学习PAI实现精细化营销

196

7

去学习

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

147

8

去学习

场景实践 - 基于机器学习进行收入预测分析

96

6

去学习

机器学习概览及常见算法

31708

13

去学习

机器学习入门-概念原理及常用算法

13458

8

去学习

相关电子书

更多

阿里巴巴机器学习平台AI 立即下载

基于Spark的面向十亿级别特征的大规模机器学习 立即下载

基于Spark的大规模机器学习在微博的应用 立即下载

相关实验场景

更多