Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11261内容
使用EMR-Flume同步Kafka数据到HDFS
Flume是一个分布式、可靠和高效的数据汇聚系统,其source、channel和sink的结构设计,不仅实现了数据生产者与消费者的解耦,还提供了数据缓冲的功能。一个比较通用的使用场景是使用Flume将Kafka的数据按照时间分区同步至HDFS,进行实时的流式分析或离线统计。
hadoop整体结构图及服务组件详解
hadoop服务组件简单解释 1、core  分布式系统和通用IO组件和接口(序列化、java远程调用等等服务) 2、avro  支持跨语言过程调用,持久数据存储的数据序列化系统 3、MapReduce  构建在廉价的pc机器上分布式数据处理模型和运行环境 4、hdfs  构建廉价的pc机器上分布式文件系统 5、pig  处理海量数据集的数据流语
The Log
The Log: What every software engineer should know about real-time data’s unifying abstraction 译文 Jay Kreps Principal Staff Engineer Posted on 12/16/2013 I joined LinkedIn about six yea
免费试用