容器服务ASK中spark读云存储s3文件太慢的问题有遇到过吗?

容器服务ASK中spark读云存储s3文件太慢的问题有遇到过吗?

展开
收起
真的很搞笑 2024-03-12 19:35:11 77 分享 版权
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,看了你的描述,可能是网络延迟,因为S3对象存储位于公共云上,可能存在网络延迟,你可以考虑将数据预先拷贝到ASK的本地存储中,然后进行Spark处理。

    还有就是数据分布和并行度,如果S3上的数据量庞大,建议使用并行化的方式读取数据,以提高读取速度,可以将数据分割成多个小文件或使用Spark的并行处理能力来同时读取多个文件。

    如果S3上的数据文件较大,可以考虑对数据进行压缩,减少网络传输时间,Spark支持多种压缩格式,如gzip、snappy、lz4等,可以尝试不同的压缩方式。

    2024-03-13 08:53:52
    赞同 1 展开评论

国内唯一 Forrester 公共云容器平台领导者象限。

还有其他疑问?
咨询AI助理