文档备案控制台

开发者社区问答正文

我的spark性能为何这么差？

我用scala写了一个knn分类的程序，在spark上运行，和单机下运行时间做对比。
用e-mapreduce，创建spark集群，2个节点，4核cpu，8GB内存，高效云磁盘。输入和输出都用OSS。
训练集1.9kb，测试集33Mb的情况下，单机运行55秒，使用spark集群运行，花了5分钟；
训练集1.9kb，测试集100Mb的情况下，单机运行193秒，使用spark集群运行，花了52分钟；
为什么spark运行的性能这么差？我需要分析更大规模的数据，这么差的性能，都不敢去测试更大的数据集了。
能否帮我分析一下原因。谢谢。

展开

收起

help@ftp4oss 2016-02-06 20:47:51 4562 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

anglu

如果你的单机8核cpu，64GB内存，肯定比spark快。你的训练集怎么比测试集少那么多？搞反了吧。

2019-07-17 18:28:14

赞同展开评论

问答分类：

分布式计算 Scala 对象存储 Spark 开源大数据平台 E-MapReduce 对象存储

问答标签：

apache spark性能

问答地址：

开发者社区 > 大数据 > 问答

相关问答

接入阿里云RSS后，小米Spark作业的稳定性和性能有哪些显著提升？

251

1

0

在TPCDS 10T数据集上，MRACC相比最新的Spark3.1版本性能提升了多少？

181

1

0

MRACC-Spark如何利用eRDMA近网络优化插件来提升性能？

190

1

0

MRACC相比社区版Spark在性能上有哪些提升？

160

1

0

Storm&Spark中Spark的优异处理性能包括什么呢？

563

1

0

Spark将Hadoop（主要是指MapReduce）的性能提升了一个量级，主要的得益于那两个方面？

987

1

0

Spark访问OSS性能差的原因是什么？

1131

1

0

Spark的性能特点是什么？

758

1

0

Apache Spark 3.0 与性能相关的新功能主要有哪些？

1051

2

0

Apache Spark 3.0 与性能相关的新功能主要有哪些？

468

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

qoder cn你们玩不起就别玩，第三方模型用一会就提示模型服务异常

云原生数据库 PolarDB MySQL 版属于信创名单里面的数据库吗？

QoderWork CN 非常喜欢用英文是什么原因呢，经常中文里夹杂着一大段英文

阿里云百炼官网入口在哪？一键直达

自定义模型Mimo v2.5不支持图片但是Mimo官网显示是可以支持多模态的，并且也支持图片

相关文章

保姆级教程：阿里云轻量应用服务器使用宝塔Linux面板搭建网站全流程，新手指南

kuairand-27k的Parquet 数据导出与上传到 MaxCompute 完整流程（hstu格式）

阿里云618AI加速季域名及建站产品优惠：万小智送.CN域名，买域名送邮箱，域名批量低至0.9折

阿里云服务器选购参考：个人和企业热门场景高性价比云服务器配置与活动价格

云上三年，我如何用一套行情数据API接口搞定美股港股双市场

相关解决方案

更多

高效构建全球网络服务性能观测体系

实现 MySQL 到 ADB 秒级分析性能

基于 Spark 和 PyTorch 的模型训练方案

通过 RDS 读写分离提升数据库性能

极致性能，搭建轻量 OLAP 分析平台

还有其他疑问?