有幸参加了6月9号到6月11号在圣何塞举办Hadoop summit 2015,主要关注了实时计算相关的topic。
本次参会的主要感受是:实时处理成为各个公司的标配,OLAP是基本需求。
下面我主要分享如下三个议题:
- 实时计算框架(主要是storm,spark主题太少,涉及实时计算的基本没有)
- RealTime Process和 Batch Process的统一
- RealTime 处理架构以及Design Pattern
实时计算框架
这次Hadoop 峰会有一个storm的committer(来自yahoo)分享了storm在yahoo遇到的问题以及如何解决这些问题的方法,同时介绍了后续storm后续发展规划
Yahoo中最大的Topology
Yahoo中storm集群的规模
Yahoo中Hadoop集群和Storm集群的对比
Zk是storm集群规模扩张的绊脚石之一
heartbeat server
数据状态的收集以及Nimbus的jar down也是影响storm集群规模的因素
Storm需要基于资源和网络拓扑的调度
由于这次是hadoop summit 所以介绍spark很少,介绍spark streaming就没有了
RealTime Process和 Batch Process的统一
Batch Process
Stream Process
Streaming And Batch
Streaming only Pattern
SummingBird 统一batch和stream
RealTime 处理架构以及Design Pattern
一般情业务架构
Lambda Architecture And Kappa Architecture
Design Patterm
External Lookup
Responsive Shuffling
Out-of_sequence Events
总结
该文章来自于阿里巴巴技术协会(
ATA
)