使用EMR-Flume同步Kafka数据到HDFS
Flume是一个分布式、可靠和高效的数据汇聚系统,其source、channel和sink的结构设计,不仅实现了数据生产者与消费者的解耦,还提供了数据缓冲的功能。一个比较通用的使用场景是使用Flume将Kafka的数据按照时间分区同步至HDFS,进行实时的流式分析或离线统计。
hadoop整体结构图及服务组件详解
hadoop服务组件简单解释
1、core 分布式系统和通用IO组件和接口(序列化、java远程调用等等服务)
2、avro 支持跨语言过程调用,持久数据存储的数据序列化系统
3、MapReduce 构建在廉价的pc机器上分布式数据处理模型和运行环境
4、hdfs 构建廉价的pc机器上分布式文件系统
5、pig 处理海量数据集的数据流语
The Log
The Log: What every software engineer should know about real-time data’s unifying abstraction
译文
Jay Kreps
Principal Staff Engineer
Posted on 12/16/2013
I joined LinkedIn about six yea