开发者社区 问答 正文

打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

不知道里面是不是用buffer的

展开
收起
社区小助手 2019-05-29 17:33:23 3635 分享 版权
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    你的函数是 (string,string){string+string}, 它就执行string+string

    2019-07-17 23:36:20
    赞同 展开评论