Hadoop summit 2015 实时计算

简介: 有幸参加了6月9号到6月11号在圣何塞举办Hadoop summit 2015,主要关注了实时计算相关的topic。 本次参会的主要感受是:实时处理成为各个公司的标配,OLAP是基本需求。 下面我主要分享如下三个议题: 实时计算框架(主要是storm,spark主题太少,涉及实时计算的基本没有

有幸参加了6月9号到6月11号在圣何塞举办Hadoop summit 2015,主要关注了实时计算相关的topic。
本次参会的主要感受是:实时处理成为各个公司的标配,OLAP是基本需求。
下面我主要分享如下三个议题:

  • 实时计算框架(主要是storm,spark主题太少,涉及实时计算的基本没有)
  • RealTime Process和 Batch Process的统一
  • RealTime 处理架构以及Design Pattern

实时计算框架

这次Hadoop 峰会有一个storm的committer(来自yahoo)分享了storm在yahoo遇到的问题以及如何解决这些问题的方法,同时介绍了后续storm后续发展规划

Yahoo中最大的Topology

_1

Yahoo中storm集群的规模

_
IMG_5245
IMG_5246

Yahoo中Hadoop集群和Storm集群的对比

IMG_5247

Zk是storm集群规模扩张的绊脚石之一

IMG_5250

heartbeat server

IMG_5251
IMG_5252

数据状态的收集以及Nimbus的jar down也是影响storm集群规模的因素

IMG_5253

Storm需要基于资源和网络拓扑的调度

IMG_5254

由于这次是hadoop summit 所以介绍spark很少,介绍spark streaming就没有了

RealTime Process和 Batch Process的统一

IMG_5421

Batch Process

IMG_5424
IMG_5425

Stream Process

IMG_5426
IMG_5427

Streaming And Batch

IMG_5433
IMG_5434

IMG_5435

Streaming only Pattern

IMG_5437
IMG_5438

SummingBird 统一batch和stream

IMG_5444

RealTime 处理架构以及Design Pattern

一般情业务架构

IMG_5444
IMG_5202

Lambda Architecture And Kappa Architecture

IMG_5203IMG_5205

Design Patterm

IMG_5206IMG_5210IMG_5211

External Lookup

IMG_5212IMG_5213IMG_5214IMG_5216IMG_5217IMG_5218

Responsive Shuffling

IMG_5220IMG_5222IMG_5224IMG_5226IMG_5227IMG_5228IMG_5229IMG_5230

Out-of_sequence Events

IMG_5231IMG_5232IMG_5233IMG_5234IMG_5235

总结IMG_5236

 该文章来自于阿里巴巴技术协会( ATA

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
目录
相关文章
|
分布式计算 Hadoop 测试技术
|
机器学习/深度学习 分布式计算 Hadoop
满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享
Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技
6016 0
|
分布式计算 资源调度 Hadoop
【Hadoop Summit Tokyo 2016】操纵云上基于Hadoop 集群的YARN
本讲义出自Abhishek Modi在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Qubole的Hadoop技术、Qubole的架构设计、短生命周期的Hadoop集群的相关内容以及面对的挑战以及YARN的自动扩展和不断发展的HDFS技术。
2121 0
|
分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊
本讲义出自 Alex Gorelik在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据湖泊的相关概念,介绍了数据湖泊可以赋能数据驱动的决策制定以及最大化商业价值,以及如何通过正确的数据+正确的平台+正确的接口构建成功的数据湖泊。
1708 0
|
分布式计算 Hadoop 流计算
【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块
本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具。
2660 0
|
存储 分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】将HDFS演化成为广义存储子系统
本讲义出自Sanjay Radia在Hadoop Summit Tokyo 2016上的演讲,主要介绍了HDFS的相关知识以及HDFS的过去以及未来发展的动机,分享了HDFS的优势所在以及面对的主要挑战,并分享了弹性的HDFS以及泛化存储层的存储容器。
2498 0
|
分布式计算 安全 Hadoop
【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态
本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系、以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容。
3053 0
|
分布式计算 Hadoop Apache
【Hadoop Summit Tokyo 2016】Apache Storm中的资源感知调度
本讲义出自Jerry Peng在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Apache Storm的相关知识内容、目前遇到的挑战和问题并且对于资源感知调度器进行了详细介绍。
2092 0
|
分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】Columnar Era:利用Parquet,Arrow and Kudu获取高性能
本讲义出自 Julien Le Dem在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Columnar Era是利用Parquet,Arrow and Kudu获取数据计算的高性能的,并且分享了社区驱动的标准以及互操作性和Columnar Era的生态系统。
2331 0
|
分布式计算 Hadoop Apache
【Hadoop Summit Tokyo 2016】一小时之内使用Apache Nifi从零到数据流
本讲义出自San Jose在Hadoop Summit Tokyo 2016上的演讲,主要介绍了为什么在钻探行业复合数据流非常重要,以及当前Apache Nifi的发展概况和突破点,还介绍了不被期待的工作流的概况。
3588 0

相关实验场景

更多