使用EMR-Flume同步Kafka数据到HDFS
Flume是一个分布式、可靠和高效的数据汇聚系统,其source、channel和sink的结构设计,不仅实现了数据生产者与消费者的解耦,还提供了数据缓冲的功能。一个比较通用的使用场景是使用Flume将Kafka的数据按照时间分区同步至HDFS,进行实时的流式分析或离线统计。
日志数据如何同步到MaxCompute
日常工作中,企业需要将通过ECS、容器、移动端、开源软件、网站服务、JS等接入的实时日志数据进行应用开发。包括对日志实时查询与分析、采集与消费、数据清洗与流计算、数据仓库对接等场景。本次分享主要介绍日志数据如何同步到MaxCompute。
笔记整理:数据处理方式Data Processing
1.批处理Batch Processing
定义:将任务成批地提交给系统,由系统自动完成后再输出结果。
举个例子,住在UIC新小镇的人去旧小镇上课,学校没造诺亚方舟,没办法哗啦一下送过去,只能用几辆大巴,将我们一批批送过去。