文档备案控制台

开发者社区问答正文

查询Yarn and Spark

我需要使用spark将数据从Hive（已分区）导出到Teradata（非分区）。

集群规范：120个工作节点，每个节点有16个核心处理器，128 GB RAM。表大小约为130GB，当我从中创建数据帧时，它会产生1,30,000个分区。

val df=spark.sql("select * from ")

df.mode(SaveMode.Append).write.jdbc(,,)
我使用下面的配置在客户端模式下启动spark：

--executor-cores 5 --executor-memory 16G --num-executors 200
这项工作运行顺利，但它在Teradata端创建了300多个JDBC连接，DBA恐慌并挂掉它们导致我的工作失败。

现在，我的问题是：

我应该使用coalesce来减少1,30,000的分区数量吗？如果是，那么什么是最佳的以及如何选择它？

正如我所说，这项工作运行得相当快，它在我要求的1500个中使用了大约900个vcores：第0阶段> - > --------------------- -----（40230 + 932）/ 1,30,000

我如何配置这个，以便我的作业不会创建超过100个JDBC连接？

如果Teradata端的目标表在同一列上分区，会有帮助吗？怎么样？

它得到了许多来自Yarn的vcores，因为它们处于闲置状态，但是当提交其他生产作业时，由于没有获得所需数量的执行程序，它们运行速度非常慢。

最重要的问题：yarn不应该释放它最初提供给我的工作的执行者并将它们分配给其他工作吗？我在默认队列中运行我的工作，该队列没有任何特殊优先级。

我不应该使用spark并使用Sqoop吗？

展开

收起

社区小助手 2019-01-02 15:08:05 3033 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

关于可以遵循的合并功能，没有通用的指导原则。在vcores的数量和任务的执行方面，你需要看看哪个更适合你。
YARN的动态分配功能可确保在初始分配完成后返回执行程序，并且在执行期间不执行执行程序。这有助于释放群集上的资源，并确保我们不会将群集资源仅连接到一个作业。
Spark和Sqoop是两回事。Spark用于数据的内存处理/并行处理（来自一个或多个数据源/分布式系统）。Sqoop从一个源获取数据并加载到另一个源。

2019-07-17 23:24:24

赞同展开评论

问答分类：

SQL 分布式计算资源调度 Java 数据库连接 HIVE Spark 数据库管理

问答标签：

apache spark yarn apache spark查询 Yarn spark yarn apache spark 查询apache spark

问答地址：

开发者社区 > 数据库 > 问答

相关问答

EMR集群如何配置Yarn和Spark组建的日志定期清理策略

346

1

0

大数据计算MaxCompute Spark可以支持yarn client模式吗？

140

1

0

通过spark-sql客户端往hive的一个表随便插入一条数据，然后在hive中查询这个表报错.

366

1

0

通过spark-sql往hive的一个表随便插入一条数据，然后在hive中查询这个表报错

284

0

0

在DMS中是否有单独执行Spark SQL预览查询结果的功能，而不是执行整个任务并写入表？

155

1

0

MaxCompute spark SQL查询分区表数据报错java.lang.String c...

163

1

0

DataWorks有什么方式可以让spark jar能访问表但是临时查询不能访问表数据？

104

1

0

在表格存储中spark写入ots程序没有报错，但是为什么查询ots的时候，发现没有数据？

196

2

0

在dataworks的数据开发下面的spark节点，为什么查询ots的时候，发现没有数据？

146

1

0

请教一下，flink如何在flink-conf文件中配置往yarn上提交的用户

920

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

云端部署coclaw报错

相关文章

外卖配送开发系统的订单状态流转与结算逻辑详解

智能数据库运维大脑 DAS Agent 邀您开启 AI 驱动的数据库自治之旅！

java工具：Long转String（时间毫秒数转日期格式字符串）

蓝易云：高防CDN是什么意思,高防CDN

还有其他疑问?