开发者社区> 问答> 正文

我的spark性能为何这么差?

我用scala写了一个knn分类的程序,在spark上运行,和单机下运行时间做对比。
用e-mapreduce,创建spark集群,2个节点,4核cpu,8GB内存,高效云磁盘。输入和输出都 用OSS。
训练集1.9kb,测试集33Mb的情况下,单机运行55秒,使用spark集群运行,花了5分钟;
训练集1.9kb,测试集100Mb的情况下,单机运行193秒,使用spark集群运行,花了52分钟;
为什么spark运行的性能这么差?我需要分析更大规模的数据,这么差的性能,都不敢去测试更大的数据集了。
能否帮我分析一下原因。谢谢。

展开
收起
help@ftp4oss 2016-02-06 20:47:51 4265 0
1 条回答
写回答
取消 提交回答
  • 如果你的单机8核cpu,64GB内存,肯定比spark快。你的训练集怎么比测试集少那么多?搞反了吧。

    2019-07-17 18:28:14
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载