备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

在Spark2.0中基于代价的优化器有什么问题？

在Spark2.0中基于代价的优化器有什么问题？求大佬解答

展开

收起

爱吃鱼的程序员 2020-12-28 13:46:44 865 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

数据统计信息普遍缺失，统计信息的收集代价较高；储存计算分离的架构使得收集到的统计信息可能不再准确；Spark部署在某一单一的硬件架构上，cost很难被估计；Spark的UDF（User-definedFunction）简单易用，种类繁多，但是对于CBO来说是个黑盒子，无法估计其cost。

2020-12-28 13:47:01

赞同展开评论

问答分类：

开源大数据平台 E-MapReduce

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

相关问答

在Spark2.0中基于代价的优化器有什么问题？

600

1

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

915

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

943

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

1991

1

0

我想咨询下，我们的maxcompute spark程序需要访问redis，开发环境和生产环境redi

911

1

0

MaxCompute 的 spark 能读 odps 的 resource 资源吗

1119

1

0

MaxCompute 的 spark 不支持 df.createOrReplaceGlobalTem

1127

20

0

请教个问题，Spark on MaxCompute是基于内存的吗？会不会比直接用odps sql写要

802

1

0

MaxCompute Spark中磁盘空间不足的表现形式是什么？

939

1

0

MaxCompute Spark中本地磁盘的相关参数是什么？

1082

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

相关文章

如何建设网站，网站制作的6个步骤

鹰角网络基于阿里云EMR Serverless StarRocks的实时分析工程实践

0 基础建站？PageAdmin CMS 10 分钟搞定，源码免费拿！

「直播预告」Streaming Lakehouse Meetup EP.2｜Paimon × StarRocks 共话实时湖仓

活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

热门讨论

热门文章

starrocks通过DLF2.0建立外部表，可以进行delete或者update表数据的操作吗？

阿里云E-MapReduce jindodistcp迁移hdfs到oss的时候会忽略正在写入的块么？

阿里云共享块存储和NAS还有OSS的区别是什么呀

咨询个问题，starrocks，如何像mysql一样，查询有无锁以及造成锁的sql？

请问下EMR5.8.0Data Lake集群有没有Zeppelin和Hue组件呢

我想问一下阿里云E-MapReduce，为什么会报错这个信息呢？

Databricks 和 Dataworks 都是一站式的数据分析平台，两者的区别是什么？

NeuSoft是什么？

这个监控进程怎么占用这么大的内存？

问下阿里云E-MapReduce spark-shell有SDK 报错找不到schema？

展开全部

E-MapReduce结合DataV进行数据展现

E-MapReduce中Spark 2.x读写MaxCompute数据

Spark Operator浅析

EMR Spark Relational Cache的执行计划重写

开源大数据周刊-第24期

开源大数据周刊-第6期

深入剖析 Delta Lake：详解事务日志

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

使用Relational Cache加速EMR Spark数据分析

如何建设网站，网站制作的6个步骤

展开全部

还有其他疑问?