备案控制台

开发者社区问答正文

如何对Spark streaming进行性能优化？

如何对Spark streaming进行性能优化？

展开

收起

芯在这 2021-12-06 01:10:38 322 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

1.降低批次处理时间：

①数据接收并行度。

(1)增加DStream：接收网络数据(如Kafka，flume，Socket等)时会对数据进行反序列化再存储在Spark，由于一个DStream只有Receiver对象，如果成为瓶颈可考虑增加DStream。

(2)设置”spark.streaming.blockInterval”参数：接受的数据被存储在Spark内存前，会被合并成block，而block数量决定了task数量；举例，当批次时间间隔为2秒且block时间间隔为200毫秒时，Task数量约为10；如果Task数量过低，则浪费了cpu资源；推荐的最小block时间间隔为50ms。

(3)显式对Input DStream重新分区：再进行更深层次处理前，先对输入数据进行重新分区。

②数据处理并行度：reduceByKey，reduceByKeyAndWindow等operation可通过设置”spark.default.parallelism”参数或显式设置并行度方法参数控制。

③数据序列化：可配置更高效的kryo序列化。

2.设置合理批次时间间隔：

①原则：处理数据的速度应大于或等于数据输入的速度，即批次处理时间大于或等于批次时间间隔。

②方法：

(1)先设置批次时间间隔为5~10秒数据输入速度；

(2)再通过查看log4j日志中的”Total delay”，逐步调整批次时间间隔，保证”Total delay”小于批次时间间隔。

3.内存调优：

①持久化级别：开启压缩，设置参数”spark.rdd.compress”；

②GC策略：在Driver和Executor上开启CMS(Content Management System 内容管理系统)

2021-12-06 08:09:56

赞同展开评论

问答分类：

分布式计算流计算 Spark

问答标签：

apache spark streaming apache spark性能优化

问答地址：

开发者社区 > 大数据 > 问答

相关问答

流式计算 Spark Streaming 如何应treaming 如何应用？

864

1

0

Flink和Spark Streaming相比有哪些不同？

1180

1

0

当把仅有确定性计算的 Spark Streaming 和 Flink 进行对比时二者的不同点有哪些？

872

1

0

如果 Spark Streaming 存在非确定性的计算，则不能实现端到端一致，原因是什么？

845

1

0

Spark Streaming 原理是什么？

1780

1

0

Spark streaming / Flink 通过通道服务的完整架构是什么样的？

712

1

0

Spark streaming / Flink 通过通道服务实现了什么？

700

1

0

Spark Streaming

635

1

0

从哪个版本开始将提供 Spark Streaming SQL 的预览版功能？

743

1

0

Spark streaming / Flink 通过通道服务拿到实时数据变化，聚合，将统计结果写回到

595

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

当Supabase遇上RDS——如何高效构建轻量级应用？

阿里云服务器4核8G配置多少钱？一年、1个月或1小时收费明细

阿里云SSL证书价格一年多少钱？有免费的吗？

阿里云4核8G云服务器多少钱？一年、1个月或1小时收费价格查询

如何用"乐高式开发"实现前后端分离？

相关文章

云栖实录｜驰骋在数据洪流上：Flink+Hologres驱动零跑科技实时计算的应用与实践

别再靠“拍脑袋”修系统了——聊聊大数据如何让运维更聪明

基于Python大数据的的电商用户行为分析系统

《3D端游开放世界载具物理交互优化实践日志》

理想汽车基于 Hologres + Flink 构建万亿级车联网信号实时分析平台

还有其他疑问?