文档备案控制台

开发者社区问答正文

spark程序序列化出错? 400 报错

spark程序序列化出错? 400 报错

使用scala写spark程序时，定义了一个函数变量：

val coreCompute = (s: Int) => {
			//TODO 核心计算程序放在这里
			(0.0, 0)  
		}

并且在RDD的操作中调用了该函数：

val tempB = z.map(s => {
				val efn = coreCompute(s)
				(s, efn)
		    })

问题是，coreCompute函数只是返回一个值的话能够正常运行；如果想要返回数组的话则会出现序列化的错误。请问这是什么原因？有什么办法让他返回数组或者类似的数据结构吗？

展开

收起

爱吃鱼的程序员 2020-06-04 11:54:20 578 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

首先把错误的日志发上来。

出现错误的原因是，partitions之间进行shuffle，数据要进行序列化以及反序列化，所以gc容易占用很久时间。

建议

1.使用kryo

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

很省空间，效率比默认的java 序列化要好。

2.使用mappartitions而不是map，mappartitions是针对一个partitions进行处理。

为啥一定要返回数组呢？是不是可以先在map中生成<k,v>的形式，而在reduce中把结果给聚合成数组的形式？
######

引用来自“blue1110”的评论

首先把错误的日志发上来。

出现错误的原因是，partitions之间进行shuffle，数据要进行序列化以及反序列化，所以gc容易占用很久时间。

建议

1.使用kryo

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

很省空间，效率比默认的java 序列化要好。

2.使用mappartitions而不是map，mappartitions是针对一个partitions进行处理。

为啥一定要返回数组呢？是不是可以先在map中生成<k,v>的形式，而在reduce中把结果给聚合成数组的形式？

非常感谢回答。当时之所以想要返回数组，是因为当时对于某一个键值有一个数组与之对应（程序是照着单机的“翻译”过来的，所以总是带着单机运行的一些残留思想）。现在想想，使用flatMap的<k,v>形式或许是更好的做法。

最后解决的方法是抛弃了那个数组，把需要返回的一些数据拼成了字符串传出完事。

至于不同的序列化方式我没有尝试过，需要的时候或许可以试一下。

2020-06-04 16:48:31

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark报错 apache spark程序 spark序列化序列化报错 apache spark程序报错

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute spark报错Expected name at line 1 colum...

166

1

0

E-MapReduce spark报错User admin does not have per...

241

1

0

MaxCompute中Spark报错ODPS-0420095: Access Denied -...

156

1

0

E-MapReduce开启使用DLF统一元数据后本地开发spark程序想访问emr hive中...

122

0

0

DMS任务编排Spark SQL节点失败无报错信息

142

1

0

DataWorks 运行spark节点，程序logger日志无法展示

152

0

0

flink里pyspark ,通过 spark-submit 这种方式提交作业，报错依赖缺失咋办？

216

1

0

dataworks调用odps的spark中的pyspark代码报错找不到main函数什么情况啊？

161

1

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

147

1

0

DataWorks中CDH Spark SQL 运行报错了，麻烦看看呢，日志如下？

126

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

OpenClaw Gateway Token 获取？

阿里云千问Token价格怎么收费？

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

相关文章

Dataphin功能Tips系列（92）如何方便快速地通过SQL取数实现定制化数据同步

阿里云第九代ECS云服务器（c9i、g9i、r9i）CPU采用Intel® Xeon® Granite Rapids处理器，主频3.2 GHz

别再盲目上 Serverless 了：聊聊 Serverless 数据分析的真相、成本和适用场景

企业如何用IP地址进行风控管理？一套实操方案

别把数据中台做成“数据坟场”：聊聊企业数据中台架构的真实落地之路

还有其他疑问?