开发者社区 > 云原生 > 容器服务 > 正文

容器服务ASK中spark读云存储s3文件太慢的问题有遇到过吗?

容器服务ASK中spark读云存储s3文件太慢的问题有遇到过吗?

展开
收起
真的很搞笑 2024-03-12 19:35:11 55 0
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,看了你的描述,可能是网络延迟,因为S3对象存储位于公共云上,可能存在网络延迟,你可以考虑将数据预先拷贝到ASK的本地存储中,然后进行Spark处理。

    还有就是数据分布和并行度,如果S3上的数据量庞大,建议使用并行化的方式读取数据,以提高读取速度,可以将数据分割成多个小文件或使用Spark的并行处理能力来同时读取多个文件。

    如果S3上的数据文件较大,可以考虑对数据进行压缩,减少网络传输时间,Spark支持多种压缩格式,如gzip、snappy、lz4等,可以尝试不同的压缩方式。

    2024-03-13 08:53:52
    赞同 1 展开评论 打赏

国内唯一 Forrester 公共云容器平台领导者象限。

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载