Apache Flink 漫谈系列(04) - State
实际问题
在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。
阿里巴巴飞天大数据架构体系与Hadoop生态系统
先说Hadoop
什么是Hadoop?
Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。
【ATF】钱正平:大规模实时计算及其在阿里的应用与创新
2016 ATF阿里技术论坛中,阿里云高级专家钱正平深入分享了在大规模实时计算及其在阿里的应用与创新经验。在他看来,用户需求是真正驱动分布式计算领域发展和变化的核心因素。除了一些比较有特色的技术点之外,还有五大经验:审计、动态重构、持续维护、异常处理和数据特例。
一小时完成基于阿里云流计算的实时计算系统搭建
目前,实时计算越来越被广泛应用,比如 实时ETL、实时报表、实时大屏展示等一些监控预警和在线系统的场景。企业对计算速度和消息更新速度要求越来越高。开源框架中,Storm,Sparks,Flink等在企业生产中大量投入使用,但是开发相对复杂,需要对接各种框架api、sdk等,另外人力成本相对较高。