我的spark性能为何这么差?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

我的spark性能为何这么差?

help@ftp4oss 2016-02-06 20:47:51 2048

我用scala写了一个knn分类的程序,在spark上运行,和单机下运行时间做对比。
用e-mapreduce,创建spark集群,2个节点,4核cpu,8GB内存,高效云磁盘。输入和输出都 用OSS。
训练集1.9kb,测试集33Mb的情况下,单机运行55秒,使用spark集群运行,花了5分钟;
训练集1.9kb,测试集100Mb的情况下,单机运行193秒,使用spark集群运行,花了52分钟;
为什么spark运行的性能这么差?我需要分析更大规模的数据,这么差的性能,都不敢去测试更大的数据集了。
能否帮我分析一下原因。谢谢。

分布式计算 Scala 对象存储 Spark
分享到
取消 提交回答
全部回答(1)
  • anglu
    2019-07-17 18:28:14

    如果你的单机8核cpu,64GB内存,肯定比spark快。你的训练集怎么比测试集少那么多?搞反了吧。

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题