文档备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

机器学习PAI有最佳实践能够参考吗？

机器学习PAI如果想要使用ParquetDataset并且尽量达到更多样本的shuffle，有最佳实践能够参考吗？

展开

收起

真的很搞笑 2023-11-12 08:43:00 157 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

芯在这

目前还没有，可以考虑先将parquet文件中的数据预先shuffle好，再用ParquetDataset去读。，此回答整理自钉群“DeepRec用户群”

2023-11-12 16:09:51

赞同展开评论
sunrr
在PAI（Platform for AI）中使用ParquetDataset并实现更多的样本shuffle，可以考虑以下几种方式：
1. 调整shuffle buffer size：在创建ParquetDataset时，可以通过设置shuffle_buffer参数来控制每次shuffle操作的样本数量。较大的shuffle_buffer可以提高shuffle的效果，但也可能会增加计算和存储的开销。因此，你需要根据实际的业务需求和计算资源来进行合理的设置。
2. 使用更大的批次大小：在PAI中，批次大小会影响shuffle的效果。较大的批次大小可以增加样本的多样性，从而提高shuffle的效果。但是，过大的批次大小可能会增加计算和存储的开销，因此你需要根据实际情况进行调整。
3. 使用多线程或多进程：在PAI中，可以使用多线程或多进程的方式来并行处理数据，从而提高shuffle的效率。但是，过多的线程或进程可能会增加计算和存储的开销，因此你需要根据实际情况进行调整。
4. 优化数据读取速度：在PAI中，数据读取的速度也会影响shuffle的效果。你可以通过优化数据读取的方式，如使用更快的磁盘、优化数据读取算法等方式，来提高数据读取的速度，从而提高shuffle的效果。
5. 使用更复杂的shuffle策略：在PAI中，除了基本的shuffle策略外，还可以使用更复杂的shuffle策略，如环状shuffle、哈希shuffle等，来实现更多的样本shuffle。
总的来说，实现更多的样本shuffle需要综合考虑多种因素，包括数据特性、计算资源、硬件性能等。在实际操作中，你可能需要多次尝试和调整，以找到最适合你的业务的shuffle策略。
2023-11-12 09:17:52

赞同展开评论

问答分类：

机器学习/深度学习人工智能平台 PAI

问答标签：

人工智能平台 PAI最佳实践机器学习人工智能平台 PAI 人工智能平台 PAI pai 人工智能平台 PAI机器学习人工智能平台 PAI参考

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

人工智能平台PAI

机器学习PAI分布式训练有最佳实践吗，如同步/异步模式，optimizer怎么选择等？

247

3

0

请问下机器学习PAI ParquetDataset做shuffle应该如何构建最佳实践呢？

174

2

0

机器学习PAI easyrec中只有一个eval_path 评估数据的路径吗？

195

3

0

机器学习PAI easyrec做RawFeature这种连续值特征输入时，直接将特征原值作为输入？

174

3

0

现在机器学习PAI Alink最高适配到JDK的那个版本呢？

198

2

0

在机器学习PAI按照官方给的最佳实践手册，走到上述步骤「数据同步Hologres」报错，怎么解决？

173

5

0

机器学习PAI alink webui启动有没有参考文档？

139

1

0

想问下机器学习PAI，这里有2.8吗？

162

2

0

机器学习PAI只能用再建一个 done分区的方式吗？instance.status 这种方式可行吗？

146

2

0

机器学习PAI的Alink加载onnx模型和engine那个效率高呢

378

3

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

企业邮件安全架构演进：从边界防御到智能动态感知

税务欺诈“十二大骗局”的数字化演进与智能防御体系构建

斑马线目标检测数据集（1000 张图片已划分、已标注）| AI训练适用于目标检测任务

Figure 03自主清洁147秒引关注，马斯克亲自下场追问

维纳滤波器语音增强MATLAB实现

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

【百问百答】机器学习pai问答合集

阿里云百炼大模型怎么收费？要钱吗？

自定义机器人消息，curl: (35) TCP connection reset by peer

想咨询下机器学习PAI 您在MIND里面关于squash的做法，这样加完向量模长还能控制到0-1吗？

PAI做了线性回归的模型，预测结果后，回归模型评估的节点，结果R2的值是负的，我理解R2的取值范围?

请问在机器学习PAI里mc需要另外配置json函数库嘛？

在机器学习PAI中的alink中不支持的算法如果想扩展该如何实现呢？

机器学习PAI引用akdl三方库的flink-ml-framework,请问该库是否支持微软系统？

您好，麻烦问一下机器学习PAI为什么会出这问题啊？感觉好奇怪，

展开全部

【玩转数据系列六】文本分析算法实现新闻自动分类

【玩转数据系列一】人口普查统计案例

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

【玩转数据系列三】利用图算法实现金融行业风控

机器学习PAI全新功效——实时新闻热点Online Learning实践

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

【玩转数据系列七】有娃的注意了，机器学习教您如何提高孩子学习成绩

阿里大航杯AI电力大赛比赛分享及数加平台，机器学习pai使用经验

基于协同过滤算法的推荐

FM算法介绍

展开全部

还有其他疑问?