文档备案控制台

开发者社区问答正文

使用Apache Spark时如何处理数据库的背压？

我们使用Apache Spark每2个小时执行一次ETL。

有时，Spark在执行读/写操作时会对数据库施加很大压力。

对于Spark Streaming，我可以backpressure在kafka上看到配置。

有没有办法在批处理中处理这个问题？

展开

收起

社区小助手 2018-12-12 18:23:06 2421 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

Backpressure实际上指的是设置最大接收率。实际上它并不像你想象的那样工作。
这里应该做的实际上是阅读结束。
现在在经典的JDBC使用中，jdbc连接器具有s 的fetchSize属性PreparedStatement。所以基本上你可以考虑使用以下答案中的内容来配置fetchSize：
Spark JDBC fetchsize选项
Statement.setFetchSize（nSize）方法在SQL Server JDBC驱动程序中的作用是什么？
这可能无法解决您的所有性能问题RDBMS。
您必须知道的是，与在单个工作程序上运行的基本jdbc读取器相比，使用整数列或使用谓词序列对数据进行分区时，以分布式模式加载数据但引入了一些问题。在您的情况下，大量的并发读取可以轻松地限制数据库。
为了解决这个问题，我建议如下：
如果可用，请考虑通过JDBC连接使用专用数据源。
考虑使用专门的或通用的批量导入/导出工具，如Postgres COPY或Apache Sqoop。
请务必了解不同JDBC数据源变体的性能影响，尤其是在使用生产数据库时。
考虑为Spark作业使用单独的副本。

2019-07-17 23:20:16

赞同展开评论

问答分类：

消息中间件分布式计算 Kafka Apache 数据库 Spark 流计算云消息队列 Kafka 版

问答标签：

Apache数据库数据库背压 Apache spark apache spark Apache 数据库apache

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute中使用Spark如何处理org.apache.spark.sql.Anal...

142

1

0

如果用户在数据库中已有抽奖记录但结果未确定，Django项目会如何处理？

123

1

0

dbeaver 通过Apache Spark引擎链接不上云数据仓库ADB，怎么解决？

310

1

0

在DMS中tdd拓扑数据库数量有缺失，从dms不断同步也无效，请问可以如何处理呢？

138

1

0

Apache Flink 和 Apache Spark Streaming在完整性推理方面有何不同？

129

1

0

Apache Spark Streaming 如何处理端到端一致性和时间事件的支持？

177

1

0

MaxCompute spark作业报错Class org.apache.hadoop.fs....

353

1

0

OceanBase数据库中，oceanbase 支持麒麟V10 国产操作系统吗？

225

1

0

OceanBase数据库这个应该是我最开始执行的？

82

1

0

OceanBase数据库跑存储过程刚跑10分钟不到 ,请问是什么问题？

170

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云如何部署使用OpenClaw？OpenClaw部署一看就会：零基础零代码、纯点击

阿里云ECS 手动部署 OpenClaw 超详细教程（2026最新版）

2026年阿里云新老用户如何部署OpenClaw？OpenClaw部署喂饭级教程

2026年新用户购买阿里云服务器多少钱1年？阿里云新用户有什么优惠？

在今天3点左右通义灵码问问题不正常返回了

相关文章

手把手搭建 Adaptive RAG 系统：从向量检索到 Streamlit 前端全流程

大模型应用：大模型驱动智能体协同实现：技术原理与实战落地全解析.35

内网管控中的布隆过滤器算法及Node.js实现

AI Agent全栈构建攻略：OpenClaw部署+Agent Skills+Seedance+RAG入门教程

OpenAI又宕机了！从这次事故看AI服务的性能测试怎么做

还有其他疑问?