开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

如何计算spark中的数据集,在加入内存中的大小

如题,数据在磁盘中,一般因为压缩等原因,在加载到内存中,完全展开以后,数据会膨胀很多,为了更好的利用内存,和调整相应参数,如何准确获取到,或者能预估出数据集在内存中的大小 当前尝试使用创建df.cache.count,然后通过执行计划获取数据集大小 val bytes = spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats.sizeInBytes 但是,该值和直接cache 数据集有很大的差异,我目前无法判断哪一个是准确的

展开
收起
游客2wq2qqh3qzbwa 2022-11-23 22:02:12 579 0
0 条回答
写回答
取消 提交回答

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
Apache Spark: Cloud and On-Prem 立即下载
Hybrid Cloud and Apache Spark 立即下载
云服务器ECS内存增强型实例re6全新发布 立即下载