如图,请问机器学习PAI的数据量较大的时候会出现这个问题怎么解决?

如图,请问机器学习PAI的数据量较大的时候会出现OperatorCsvCollector.collectToCsv TooLongFrameException这个问题怎么解决?
13b2637055ce450ab050eef7a50a4fe1.png

展开
收起
乐天香橙派 2023-08-09 09:53:02 111 分享 版权
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    OperatorCsvCollector.collectToCsv TooLongFrameException这个异常通常是因为数据量过大导致的。

    出现这个异常的原因是:

    CsvCollector默认会将所有数据收集到一个大的字符串中,再输出为CSV文件。

    数据量太大时,这个大字符串会超出HTTP响应大小限制,导致TooLongFrameException。

    解决此问题有以下几种方法:

    分批次导出CSV,每次导出一部分数据。

    使用非阻塞流式输出,每次flush部分数据而不是一次性输出全部数据。

    配置HTTP Server增加响应大小限制,例如修改 rest.response.large 사이즈 를 더 큰 값으로 설정.

    不使用CsvCollector直接将数据写入文件或数据库等目标。

    将数据先存入其他存储再导出,避免一次性在内存中构建过大字符串。

    分割后批次收集每个部分输出为单独CSV文件。

    根据实际情况减少导出数据量的范围。

    2023-08-11 15:21:53
    赞同 展开评论
  • collect应该是有限制,可以直接link一个sink组件就行了—此回答来自钉群“Alink开源--用户群”

    2023-08-09 11:12:25
    赞同 展开评论

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

还有其他疑问?
咨询AI助理