从零到一建设数据中台 - 数据处理之批流一体-阿里云开发者社区

从零到一建设数据中台 - 数据处理之批流一体

2024-07-31 92

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

阿里云百炼推荐规格 ADB PostgreSQL，4核16GB 100GB 1个月

简介： 从零到一建设数据中台 - 数据处理之批流一体

一、离线计算

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示。
代表技术：Sqoop 批量导入数据、HDFS 批量存储数据、MapReduce 批量计算数据、Hive 批量计算数据。
MapReduce：是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

MapReduce无法像MySQL一样，在毫秒或者秒级内返回结果。流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。

MapReduce运算过程需要分成至少2个阶段：

MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

离线计算与实时计算最大的区别：实时收集、实时计算、实时展示。
流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示。
代表技术：Flume 实时获取数据、Kafka 实时数据存储、Storm 实时数据计算、Spark实时数据计算、Flink实时数据计算、Redis 实时结果缓存、Mysql 持久化存储。

是一个免费开源的分布式实时计算系统。Storm 能轻松可靠地处理无界的数据流，就像 Hadoop 对数据进行批处理，Storm可以实时处理数据。

专门为流式处理设计数据传输模式更为简单，很多地方也更为高效并不是不能做批处理，它也可以来做微批处理，来提高吞吐

将RDD做的很小来用小的批处理来接近流式处理基于内存和DAG可以把处理任务做的很快

并非真正意义上的流处理，而是微批处理，对数据流进行极小粒度的拆分，近似达到流处理的效果（微分原理），而Flink是大批量处理框架，既可以处理有界流也可以处理无界流。

Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。

它的最大亮点是流处理，是业界最顶级的开源流处理引擎。

Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。

Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。

此外，Flink的运行时本身也支持迭代算法的执行。

ETL:元数据加工

数据抽取(extract)、转换(transform)、加载(load)，跨表组织汇总与分析。图形化ETL视图配置，自主进行数据建模，跨表聚合视图可视化配置，对不同来源的源数据进行加工，自助式ETL，自由组合数据视图，数据建模分析。

主要功能有：