Hadoop summit 2015 实时计算

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
简介: 有幸参加了6月9号到6月11号在圣何塞举办Hadoop summit 2015,主要关注了实时计算相关的topic。 本次参会的主要感受是:实时处理成为各个公司的标配,OLAP是基本需求。 下面我主要分享如下三个议题: 实时计算框架(主要是storm,spark主题太少,涉及实时计算的基本没有

有幸参加了6月9号到6月11号在圣何塞举办Hadoop summit 2015,主要关注了实时计算相关的topic。
本次参会的主要感受是:实时处理成为各个公司的标配,OLAP是基本需求。
下面我主要分享如下三个议题:

  • 实时计算框架(主要是storm,spark主题太少,涉及实时计算的基本没有)
  • RealTime Process和 Batch Process的统一
  • RealTime 处理架构以及Design Pattern

实时计算框架

这次Hadoop 峰会有一个storm的committer(来自yahoo)分享了storm在yahoo遇到的问题以及如何解决这些问题的方法,同时介绍了后续storm后续发展规划

Yahoo中最大的Topology

_1

Yahoo中storm集群的规模

_
IMG_5245
IMG_5246

Yahoo中Hadoop集群和Storm集群的对比

IMG_5247

Zk是storm集群规模扩张的绊脚石之一

IMG_5250

heartbeat server

IMG_5251
IMG_5252

数据状态的收集以及Nimbus的jar down也是影响storm集群规模的因素

IMG_5253

Storm需要基于资源和网络拓扑的调度

IMG_5254

由于这次是hadoop summit 所以介绍spark很少,介绍spark streaming就没有了

RealTime Process和 Batch Process的统一

IMG_5421

Batch Process

IMG_5424
IMG_5425

Stream Process

IMG_5426
IMG_5427

Streaming And Batch

IMG_5433
IMG_5434

IMG_5435

Streaming only Pattern

IMG_5437
IMG_5438

SummingBird 统一batch和stream

IMG_5444

RealTime 处理架构以及Design Pattern

一般情业务架构

IMG_5444
IMG_5202

Lambda Architecture And Kappa Architecture

IMG_5203IMG_5205

Design Patterm

IMG_5206IMG_5210IMG_5211

External Lookup

IMG_5212IMG_5213IMG_5214IMG_5216IMG_5217IMG_5218

Responsive Shuffling

IMG_5220IMG_5222IMG_5224IMG_5226IMG_5227IMG_5228IMG_5229IMG_5230

Out-of_sequence Events

IMG_5231IMG_5232IMG_5233IMG_5234IMG_5235

总结IMG_5236

 该文章来自于阿里巴巴技术协会( ATA

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
分布式计算 Hadoop 测试技术
|
机器学习/深度学习 分布式计算 Hadoop
满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享
Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技
5764 0
|
分布式计算 资源调度 Hadoop
【Hadoop Summit Tokyo 2016】操纵云上基于Hadoop 集群的YARN
本讲义出自Abhishek Modi在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Qubole的Hadoop技术、Qubole的架构设计、短生命周期的Hadoop集群的相关内容以及面对的挑战以及YARN的自动扩展和不断发展的HDFS技术。
1961 0
|
分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊
本讲义出自 Alex Gorelik在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据湖泊的相关概念,介绍了数据湖泊可以赋能数据驱动的决策制定以及最大化商业价值,以及如何通过正确的数据+正确的平台+正确的接口构建成功的数据湖泊。
1588 0
|
分布式计算 Hadoop 流计算
【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块
本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具。
2495 0
|
存储 分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】将HDFS演化成为广义存储子系统
本讲义出自Sanjay Radia在Hadoop Summit Tokyo 2016上的演讲,主要介绍了HDFS的相关知识以及HDFS的过去以及未来发展的动机,分享了HDFS的优势所在以及面对的主要挑战,并分享了弹性的HDFS以及泛化存储层的存储容器。
2319 0
|
分布式计算 安全 Hadoop
【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态
本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系、以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容。
2930 0
|
分布式计算 Hadoop Apache
【Hadoop Summit Tokyo 2016】Apache Storm中的资源感知调度
本讲义出自Jerry Peng在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Apache Storm的相关知识内容、目前遇到的挑战和问题并且对于资源感知调度器进行了详细介绍。
1935 0
|
分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】Columnar Era:利用Parquet,Arrow and Kudu获取高性能
本讲义出自 Julien Le Dem在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Columnar Era是利用Parquet,Arrow and Kudu获取数据计算的高性能的,并且分享了社区驱动的标准以及互操作性和Columnar Era的生态系统。
2179 0
|
分布式计算 Hadoop Apache
【Hadoop Summit Tokyo 2016】一小时之内使用Apache Nifi从零到数据流
本讲义出自San Jose在Hadoop Summit Tokyo 2016上的演讲,主要介绍了为什么在钻探行业复合数据流非常重要,以及当前Apache Nifi的发展概况和突破点,还介绍了不被期待的工作流的概况。
3321 0