如图,请问机器学习PAI的数据量较大的时候会出现OperatorCsvCollector.collectToCsv TooLongFrameException这个问题怎么解决?
OperatorCsvCollector.collectToCsv TooLongFrameException这个异常通常是因为数据量过大导致的。
出现这个异常的原因是:
CsvCollector默认会将所有数据收集到一个大的字符串中,再输出为CSV文件。
数据量太大时,这个大字符串会超出HTTP响应大小限制,导致TooLongFrameException。
解决此问题有以下几种方法:
分批次导出CSV,每次导出一部分数据。
使用非阻塞流式输出,每次flush部分数据而不是一次性输出全部数据。
配置HTTP Server增加响应大小限制,例如修改 rest.response.large 사이즈 를 더 큰 값으로 설정.
不使用CsvCollector直接将数据写入文件或数据库等目标。
将数据先存入其他存储再导出,避免一次性在内存中构建过大字符串。
分割后批次收集每个部分输出为单独CSV文件。
根据实际情况减少导出数据量的范围。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。