在Spark中调用dataframe.collect时,会将不寻常的数据量提取到驱动程序中-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

在Spark中调用dataframe.collect时,会将不寻常的数据量提取到驱动程序中

2018-12-12 11:29:35 2834 1

在我的spark代码中,我从Dataframe中收集驱动程序上的一个小对象。我在控制台上看到以下错误消息。我在我的项目中调试dataframe.take(1)。

Total size of serialized results of 13 tasks (1827.6 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
这知道这可以通过设置spark.driver.maxResultSizeparam 来解决。但我的问题是,当我收集的对象大小小于MB时,为什么这么多数据被拉入驱动程序。是否所有对象首先被序列化并被拉入驱动程序,然后驱动程序选择其中一个(take(1))作为输出。

apache-spark apache-spark-sql

取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:20:04

    从上面的问题看来,您似乎想从您的数据框中取一行,可以使用下面的代码实现。

    df.take(1)
    但是,当你df.take(1).collect()在那种情况下执行时,将take(1)在scala或python 的结果中应用collect (取决于你使用的是哪种语言)。

    另外,为什么你想进行收集(1)?

    0 0
相关问答

0

回答

如何将我的Spark Dataframe推送到Google Bigquery?

2019-09-25 15:16:55 237浏览量 回答数 0

1

回答

Spark和RDD的关系是怎样的?

2021-12-06 20:40:40 271浏览量 回答数 1

1

回答

spark部分的 RDD是什么?

2021-12-06 19:12:58 239浏览量 回答数 1

1

回答

Spark中RDD持久化是什么?

2021-12-05 20:08:32 109浏览量 回答数 1

1

回答

Spark中RDD(Resilient Distributed Datasets)是什么?

2021-12-05 20:05:17 109浏览量 回答数 1

0

回答

请教各位大神,我想要在如下数据结构的spark rdd中提取出内嵌的字典

2019-09-26 17:37:39 533浏览量 回答数 0

2

回答

spark的RDD内容直接用saveAsTextFile保存到hdfs时会出现中文乱码现象,但在控制台用foreach打印该RDD数据显示是正常的,该怎么解决呢?

2019-01-30 15:01:08 5491浏览量 回答数 2

1

回答

在Spark Streaming Python中将RDD转换为Dataframe

2018-12-21 13:36:36 2187浏览量 回答数 1

1

回答

在一个文件中对spark RDD进行排序和排名

2018-12-12 11:27:36 2999浏览量 回答数 1

1

回答

在spark rdd级别中使用groupby的条件运算符 - scala

2018-12-06 15:33:05 4436浏览量 回答数 1
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载