开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

如图,请问机器学习PAI的数据量较大的时候会出现这个问题怎么解决?

如图,请问机器学习PAI的数据量较大的时候会出现OperatorCsvCollector.collectToCsv TooLongFrameException这个问题怎么解决?
13b2637055ce450ab050eef7a50a4fe1.png

展开
收起
乐天香橙派 2023-08-09 09:53:02 69 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    OperatorCsvCollector.collectToCsv TooLongFrameException这个异常通常是因为数据量过大导致的。

    出现这个异常的原因是:

    CsvCollector默认会将所有数据收集到一个大的字符串中,再输出为CSV文件。

    数据量太大时,这个大字符串会超出HTTP响应大小限制,导致TooLongFrameException。

    解决此问题有以下几种方法:

    分批次导出CSV,每次导出一部分数据。

    使用非阻塞流式输出,每次flush部分数据而不是一次性输出全部数据。

    配置HTTP Server增加响应大小限制,例如修改 rest.response.large 사이즈 를 더 큰 값으로 설정.

    不使用CsvCollector直接将数据写入文件或数据库等目标。

    将数据先存入其他存储再导出,避免一次性在内存中构建过大字符串。

    分割后批次收集每个部分输出为单独CSV文件。

    根据实际情况减少导出数据量的范围。

    2023-08-11 15:21:53
    赞同 展开评论 打赏
  • collect应该是有限制,可以直接link一个sink组件就行了—此回答来自钉群“Alink开源--用户群”

    2023-08-09 11:12:25
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    基于机器学习的阿里智能助理-- 在电商领域的架构构建与实践 立即下载
    机器能预报多久后的天气——机器学习和可预报性 立即下载
    PAI分布式机器学习平台 立即下载