【Spark Summit East 2017】Kafka、YARN与Spark Streaming作为一个服务

简介: 本讲义出自Jim Dowling在Spark Summit East 2017上的演讲,主要介绍了在容易进行调试的YARN上构建多租户Spark streaming应用程序的过程中遇到的挑战,并展示了如何使用ELK技术栈对Spark streaming应用程序进行日志记录和调试,以及如何使用Graphana和Graphite对应用进行监控以及优化以及使用Dr Elephant终止Spark streaming任务。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Jim Dowling在Spark Summit East 2017上的演讲,主要介绍了在容易进行调试的YARN上构建多租户Spark streaming应用程序的过程中遇到的挑战,并展示了如何使用ELK技术栈对Spark streaming应用程序进行日志记录和调试,以及如何使用Graphana和Graphite对应用进行监控以及优化以及使用Dr Elephant终止Spark streaming任务。


492b1ca960022958ad63a93f1998dea1ac034d7d

7b66b3701a1091c381306813faed697c15e24b39

02871e535180064c299d98d52163f67aa1a7ae70

13706f08e976f171c55e70b5b4d754997fdf34bb

293a94a22a18a869d71e6de0aa47d16c2476713c

e02c364b450414cd0baec8fe62126db64ac49448

c7932676561028e07ac5176a832b7947588a39db

5039b973479339465e8bb29162173a08d9ba1ee1

13ef0c332b9357de845b7e46825d16a8781c4fce

f6b2e978164d9177e21f20fb00626688450a653a

f5bfa0b68262925a3737022d0067d90b5a8c7c81

9ebca785fcf9156e1cd2889decd81a1d31eeae07

f6dd6d30c256d9a5153bebe39f9b20bc052912a2

03349a99901633e32e769e38add8e175de63639a

d80238814c61daf82fc9d5cae4534f25cb679cf5

873a5470ca02cbb9c51d9ec2db0dec4d271c408d

39fc8943328997e335522a893537728c00a7b0c6

0e7414c1c345625e35c27ce4c9fc8ce06e69a175

979aa165d6875735b22bd9b52c160b51fc958a6e

39f78ec224143b13b97e98bf2c308b9638d5486a

80e44c967c73022e15ba0f7fd8e965e5d0c3ff32

a5734d1c5a5602f94092b2d257a0aea74d77a026

69a306ab2505b9641d223cee47c0864be85f94b4

302924497d2a15f81b4a9841f3ea761254ad7ef4

3baf35608840b9757bc505384fa55b478d625251

6d4eea35e72a3286e314a7c679e8456119068518

f5bb21edb933e9702c46c7cbe85e624e390a50cb

0756d53824c764ef6015fa7be0ce715c4cc07e87

c52c569790c1a82f75d2f85b61f8d0234bb75b4e

18095263c9b36295b440c441135e4757ee47e1b7

b7aaf2b91ddaeae706989010550656fb759348ab

c0fc7314d602ed3670b3de1c7d448454e1c4769d

acdf80e3d585f20c3f974feca847202228b7fcc4

65b87a5b6d4be2df40d28c958fb7e95e902adba0

8a1ad3795ece0f2b720c4f9fb9e38f1db6abec68

db03753a43d419aa6d21a80dea6340160312ecc5

589951dd57a433e8c424e2d78f695b87d2a5a0b2

相关文章
|
22天前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
31 0
|
22天前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
59 0
|
3月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
226 3
|
21天前
|
分布式计算 资源调度 Hadoop
Spark Standalone与YARN的区别?
【10月更文挑战第5天】随着大数据处理需求的增长,Apache Spark 成为了广泛采用的大数据处理框架。本文详细解析了 Spark Standalone 与 YARN 两种常见部署模式的区别,并通过示例代码展示了如何在不同模式下运行 Spark 应用程序。Standalone 模式自带轻量级集群管理,适合小规模集群或独立部署;YARN 则作为外部资源管理器,能够与 Hadoop 生态系统中的其他应用共享资源,更适合大规模生产环境。文章对比了两者的资源管理、部署灵活性、扩展性和集成能力,帮助读者根据需求选择合适的部署模式。
14 1
|
2月前
|
消息中间件 分布式计算 Java
Linux环境下 java程序提交spark任务到Yarn报错
Linux环境下 java程序提交spark任务到Yarn报错
36 5
|
22天前
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
46 0
|
消息中间件 分布式计算 大数据
【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测
本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想。
2510 0
|
22天前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
46 0
|
1天前
|
SQL 机器学习/深度学习 分布式计算
Spark快速上手:揭秘大数据处理的高效秘密,让你轻松应对海量数据
【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark,涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台,支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码,帮助读者快速掌握 Spark 的核心技能。
13 6
|
1天前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
11 1

热门文章

最新文章