开发者社区问答正文

Spark Streaming At Bing Scale

在SPARK SUMMIT 2017上，Kaarthik Sivashanmugam分享了题为《Spark Streaming At Bing Scale》，就大规模数据管理，NRT Data Pipelines介绍和使用等方面的内容做了深入的分析。

https://yq.aliyun.com/download/2074?spm=a2c4e.11154804.0.0.37ce6a79w9d507

展开

收起

福利达人 2018-07-29 00:22:33 916 版权

阿里云 AI 助理回答

在SPARK SUMMIT 2017上，Kaarthik Sivashanmugam的分享《Spark Streaming At Bing Scale》深入探讨了大规模数据管理与实时数据管道（NRT Data Pipelines）的应用与优化策略。虽然直接的相关内容未在提供的知识库资料中体现，但我们可以借鉴这些资料中的实践案例和建议，来理解如何在类似Bing的大规模场景下应用Spark Streaming。

解决方案概述

要实现类似Bing规模的Spark Streaming应用，关键在于高效的数据摄入、处理与输出，同时确保系统的可扩展性和容错能力。以下步骤概括了构建大规模实时数据处理系统的核心要素：

选择合适的集群配置与资源管理：根据数据吞吐量和处理需求，合理配置Spark集群参数，如executor-cores, executor-memory, -num-executors等，以确保资源充分利用。
优化数据源接入：利用LogHub等高吞吐量数据源，并正确配置DataSource JAR路径，确保数据摄入的稳定性和效率。
设计合理的数据处理逻辑：采用Structured Streaming API编写简洁且高效的处理逻辑，考虑使用窗口函数、滑动窗口等特性处理时间序列数据。
设置Checkpoint机制：为Spark Streaming作业配置Checkpoint目录，比如/loghub/checkpoint，以保障故障恢复能力和状态一致性。
考虑集群部署模式：根据业务需求选择合适的部署模式，如yarn-cluster模式，以及是否采用Serverless资源组进行更灵活的资源管理。
高级参数调优：根据具体集群环境调整YARN队列、优先级等高级参数，以优化作业调度和执行效率。

注意事项

资源评估与分配：定期评估并调整集群资源，避免资源不足或浪费。
数据倾斜问题：监控并解决数据倾斜问题，以免影响整体处理性能。
安全性配置：确保AccessKey ID及AccessKey Secret等敏感信息的安全管理。
版本兼容性：注意Spark及其依赖库的版本兼容性，选择正确的DataSource JAR文件。

示例与应用

虽然没有直接的示例来自该分享，但通过遵循上述步骤和注意事项，结合实际业务场景，可以构建出能够处理大规模实时数据流的Spark Streaming应用。例如，在广告点击日志分析、用户行为追踪或物联网(IoT)数据处理等领域，这些策略都能有效提升数据处理的实时性和准确性。

综上所述，虽然无法提供分享的具体内容，但依据现有知识库，我们能构建一套适用于大规模实时数据处理的Spark Streaming实践框架。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算数据管理 Spark 流计算数据管理

问答标签：

apache spark streaming apache spark scale apache spark bing apache spark streaming at bing scale

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark Streaming At Bing Scale

解决方案概述

注意事项

示例与应用

相关文章