备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

机器学习PAI看是在那个阶段出现的pb限制问题，这种情况下原始的pb应该就超过的2GB？

机器学习PAI看是在那个阶段出现的pb限制问题，新版本的bladedisc应该只有在tf圈图后导出子图编译时会使用pb，bladedisc编译完成后结果不会用pb来存储。这种情况下原始的pb应该就超过的2GB？（如果子图就超过了的话），一种可能的workaround方式时不freeze graph，这样const就不会被编译。另外老版本的bladedisc会使用pb来存储一部分编译后的结果，这个也会有可能超过2GB的限制，如果是这个问题，升级bladedisc应该可以解决。这个定位到是有一个input维度很大，超过了2g的限制，这个有好的处理方式吗？原生tf跑是没问题的

展开

收起

冰激凌甜筒 2023-05-02 22:01:59 297 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

LittlePenguin

随心分享，欢迎友善交流讨论：）

根据您提供的信息，这个问题可能出现在将 Tensorflow 圈图后导出的子图编译时使用 pb 文件来存储的阶段，而且可能是因为某个输入维度很大，超过了 2GB 的限制导致的。如果是这种情况，可以考虑以下一些解决方法：

不进行 Freeze Graph：如您所述，不进行 Freeze Graph 操作可以避免编译时将 const 存储到 pb 文件中，从而避免出现超出 2GB 限制的问题。不过这个方法可能会带来一些性能上的损失，需要根据具体情况进行评估。

修改输入维度：如果某个输入维度太大，超出了 2GB 限制，可以考虑缩小该维度的大小，或者使用更高效的数据结构来存储输入数据，如 sparse tensor。

使用分布式计算：如果单机无法处理大型模型和数据，可以考虑使用分布式计算。Tensorflow 提供了多种分布式计算方案，如 Horovod 和 TensorFlow Distribute。

升级 Bladedisc：如果使用的是老版本的 Bladedisc，可能会出现在编译时将结果存储到 pb 文件中的问题。可以尝试升级到新的版本，或者使用其他的编译方式，如预编译或 JIT 编译。

需要注意的是，以上方法可能会带来一些性能和复杂度上的损失，需要根据具体情况进行评估和选择。

2023-05-05 11:50:00

赞同展开评论

问答分类：

机器学习/深度学习存储人工智能平台 PAI

问答标签：

机器学习人工智能平台 PAI 人工智能平台 PAI pai 人工智能平台 PAI机器学习机器学习平台 PAIpai 机器学习平台 PAI pb

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

人工智能平台PAI

机器学习PAI这个文档中的镜像已经没有了？

62

1

0

麻烦请教下机器学习PAI如何才能在本地进行加载到python进行模型预测？

160

2

0

机器学习PAI把gender 和 age 配置一个combo特征，不知道能否区分开?

94

1

0

机器学习PAI中如果用udf,只上传一个protoc安装包，和proto 产出的pb文件就可以吗？

140

4

0

用机器学习PAI的easyrec训练产出的pb模型，在做离线预测时，可以帮忙看下是什么问题吗？

137

2

0

请问机器学习PAI这个服务内存占用没到上限96GB，内存占比却超过100%是为什么?

252

2

0

机器学习PAI这个叮叮答疑机器人，怎么配置啊？

139

0

0

想问一下机器学习PAI，BladeDISC和IREE有啥区别？

281

1

0

机器学习PAI把raw_feature放到倒数第二个，最后生成的数据表中，最后就都按照位置来区分吗？

92

2

0

机器学习PAI后续会更新dsw的huggingface镜像吗？

237

1

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

Transformer参数规模深度解析：从模型聪明说到实际影响

从文字到向量：Transformer的语言数字化之旅

Transformer中的残差连接与层归一化

Transformer中的线性与非线性变换：智能的数学交响曲

GPT与BERT深度解析：Transformer的双子星架构

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

PAI做了线性回归的模型，预测结果后，回归模型评估的节点，结果R2的值是负的，我理解R2的取值范围?

阿里云的镜像上搜不到机器学习PAI的input用的common_io为什么？

在海量用户中，将如何快速定位到目标人群进行个性化营销？

机器学习PAI5000CU*H是多少小时？

机器学习PAI模型在验证集上的 auc 很高，但是 gauc 很低是什么原因呢？

灵积平台上，用通义千问的开源大模型接口响应非常慢

智能助理无法正确进行智能表单填报

机器学习PAI中easyRec有没有将验证集的预测结果保存下来的功能？

使用通义灵码时，对话框字体怎么设置？

展开全部

【玩转数据系列六】文本分析算法实现新闻自动分类

PAI智能答疑机器人上线啦

test_multiEvaluation

requirement.txt 管理python包依赖

PAI-TurboX：面向自动驾驶的训练推理加速框架

阿里云PAI-部署Qwen2-VL-72B

人工智能（AI）技术的发展史

云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进

【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!

通义千问Qwen-72B-Chat大模型在PAI平台的微调实践

展开全部

还有其他疑问?