Flink与Paimon构建汽车行业实时湖仓技术方案-开发者社区-阿里云

摘要：本文整理自阿里云计算平台产品专家李鲁兵（云觉）老师在阿里云实时计算Flink产品介绍中的分享。本次分享主要面向汽车行业场景的专项介绍，内容分为以下四个部分：

洞察趋势：市场浅谈（以汽车行业为例）

典型大数据架构分析（以汽车行业为例）

产品市场地位及能力解读

典型落地客户案例（以汽车行业为例）

一、洞察趋势：市场浅谈（以汽车行业为例）

中国新能源汽车市场快速增长

新能源汽车行业作为国家新智生产力方向之一，行业呈现飞速发展态势。据统计，预计到2025年，将有1300万台新能源车在线运行，从2022年到2026年，新能源车的复合增长率预计将达到35.1%，这表明该行业正处于一个高速发展的阶段。车辆规模增长对大数据系统提出了更高要求，具备实时、高性价比的大数据系统，能更好支撑汽车行业实现数字化和智能化发展目标。

数据实时化是汽车行业大数据应用的重点方向之一，在线采集是实时处理的最大场景。

在汽车行业中，在线数据采集是数据处理的最大场景。针对整个汽车行业，我们进行了多种场景的分析，主要包括销售/经营、车联网以及自动驾驶。以下仅列举了一些典型场景，其他与车辆相关的应用场景在此不做详细展开。

销售/经营：销售经营方面与其他零售行业比较类似，涉及门店流量监控、指标监测、用户画像圈选、客户满意度评估以及售后维护等方面。此外，还包括供应链管理在内的各种数据应用。
车联网：车联网主要利用车辆传感数据和位置信息进行应用。在预测性维护、远程诊断、基于位置的应用、车辆统计以及OTA在线更新等方面，车联网都有广泛的应用。
自动驾驶：此外，还有自动驾驶相关的业务，包括辅助驾驶、高精度地图、安全预警等应用。

数据海量、低密度、峰谷明显是汽车大数据的典型特点，实时化、低成本是高质量发展的业务要求。

上图展示了我们对汽车行业客户场景特点的画像。第一个关键词：海量。随着新能源汽车市场竞争的加剧，新能源汽车变“卷”。如今对实时高效的数据处理需求变得更加迫切，同时也需关注成本控制。每辆车每分钟至少采集400KB的数据，即使是10万级车辆同时在线，也是一个非常庞大的数据量，如何处理海量数据是一个巨大的挑战。

第二个是数据价值密度低。单辆车采集的数据字段超过1000个甚至达到3000个以上。在这些字段中，数据的时效性和有效性各不相同，部分数据在部分时间段的利用率相对较低。因此，从海量数据中挖掘有价值的信息变得更加具有挑战性。

第三个是峰谷明显。出行需求跟时间段有密切关系，呈现明显的峰谷特点。

我们可以看到，车辆上的一些数据对于实时化要求非常高。业务上希望在数据上传后，能够进行实时解析。在数据应用方面，也希望能够实现实时或近实时的业务应用。

在自动驾驶的场景中，客户也会更加关注实时化，特别是预警功能。他们期望能够在秒级时间内获取车辆自动驾驶相关的统计数据。在销售或营销场景中，则期望、数据统计和分析、在线营销数据支持等能够尽量实现实时化。

二、典型客户大数据架构分析（以汽车行业为例）

接下来是典型的大数据架构分析。由于汽车业务整体非常复杂且庞大，我在这里整理了一个参考的业务架构图。需要注意的是，不同的客户和厂商可能有各自的业务特点，因此会有不同的架构设计。这张架构图仅作为一个参考。

1. 整体业务架构

这张架构图分为四层：

数据采集层：最大的数据显示来源是车辆本身。车辆的数据主要通过车载终端的埋点数据采集，这部分数据量非常大。此外，车联网相关的厂商或运营商也会有自己的用户端APP或应用系统，这些系统中的埋点数据也是一个重要的数据来源。同时，在生产研发和供应链环节中，也存在各种类型的数据。
数据层：基于原始数据采集，对数据进行加工处理，形成分域分主题的数据。这些主题域的数据包括用户数据、车辆数据、三电数据等。通过这种方式，我们能够将大量的原始数据组织成特定主题的数据域，以便后续的分析和应用。
应用层：典型的场景包括移动端、PC端和大屏端，因此车辆相关的一些应用场景对于各个终端的覆盖非常全面。在销售、财务、研发、质量和供应链等场景下，都有非常丰富的应用。除了这些应用之外，我们还可以看到车辆数据和经营销售等相关的数据。如果我们希望高质量地支撑业务，就必须制定一些标准，因此还存在标准层。
标准层：这一层规定了数据战略、数据架构、数据安全、数据质量、数据标准、数据生命周期、数据指标以及数据治理等方面的标准。

2. 典型技术方案

在技术架构上，我们可以看到有两个典型的技术架构。

（1）Lambda架构

第一个是业内常用的架构，称为 Lambda 架构。其典型特点是离线和实时处理分为两条独立的链路。在这个架构下，我进行了一些简化，离线计算使用的是 MaxCompute，实时计算则使用的是 Flink + Hologres。这只是一个参考架构，还有其他的数据和技术选型，这里不再赘述。Lambda 架构的典型特征是两条链路独立运行，实时数据和离线数据相互之间不能互通和复用。

（2）实时湖仓一体化架构

另一个架构是最近在数据海量增长和成本压力下，厂商们开始逐步采用的新架构，即实时湖仓架构。其典型特点是以 Flink 实时计算流批一体化引擎为核心，加上 Paimon 统一流批存储，构建流批计算存储一体化方案，在数据口径、开发语义、数据复用、流批计算等可以做到更好的统一，从而提升系统应用的效率。该架构的底层通常使用对象存储 OSS，承载海量数据存储的同时也能兼顾性价比。在数据分析处理方面，可以使用 StarRocks 或 Hologres 进行数据查询分析及相关服务，兼顾高效率查询分析的需求。因此，这套架构方案在汽车行业中逐步被更多的客户所认可和实施。

三、产品市场及能力解读

“阿里云位居 IDC MarketScape 中国实时湖仓评估领导者”，这一评价来自于IDC中国实时湖仓市场2024年厂商评估报告，该报告中指出，阿里云在实时湖仓产品能力上处于国内非常领先的地位。

同时，我们对这一场景也进行了核心洞察。首先，我们看到，湖仓架构从最初的广泛讨论和试验，发展到现在业内和企业的认可以及规模化落地，这已是非常明确的趋势。其次，湖仓架构开源开放，兼容流计算、批计算和OLAP等计算范式，这对于汽车行业的用户来说更加开放和灵活。在数据的新鲜度方面，我们希望湖仓架构能够提供更好的实时性支持。此外，围绕湖仓架构，在元数据管理、数据安全和数据质量治理上，将成为后续企业应用的重点。

1. 实时化过程

再回到大数据的实时化过程。我们可以看到，当前有几个明显的趋势：公共云、实时化、AI化。汽车行业现在非常拥抱公共云，因为在云上可以获得广泛的大数据和AI处理能力，也可以更好的满足行业飞速发展带来的基础设施快速增长的需求。今天我们重点介绍实时计算Flink产品，因此将重点关注实时化方向。

整个数据架构的发展经历了三个主要阶段：

（1）第一个阶段：引入数据仓库，同时引入数据湖的概念，基于HDFS构建数据湖。

（2）第二个阶段：融入湖仓方案。在这个阶段，我们看到许多开源的湖仓架构方案，包括Hudi、Iceberg等。然而，这些开源方案主要面向批量计算场景设计，因此在实时化支持上相对较弱。

（3）第三个阶段：进入3.0时代，我们期望原生支持湖仓的实时化和AI化。基于Apache Paimon和实时计算Flink产品，我们构建了实时湖仓的底层架构，推动了这一阶段的快速发展。

2. 整体方案

具体来看，这个方案以实时计算Flink产品为核心引擎，构建了一个实时湖仓的整体架构。数据来源方面，车联网会涉及车载数据的采集，同时还包括一些应用上Database的数据采集。我们可以通过Flink以流批处理的方式，将数据采集到Apache Paimon Table中。基于这些Table，可以使用Flink进行流批计算，进一步加工后续下游的分层数据。在计算层面，这就是整个流程。而在数据分析层和查询层，我们可以使用StarRocks、Hologres等作为核心的OLAP（在线分析处理）引擎，对数据进行查询和分析。

这套完整的方案基于低成本存储构建了Paimon Lakehouse，并深度集成了Flink，实现了全链路的实时化。其核心优势在于低成本和全链路实时化的特点，同时实现了流批存储和流批计算的统一。其中，流批存储是基于OSS（对象存储服务）构建的Paimon Table，而流批计算则由Flink支持流和批的计算。同时，这个平台具备数据管理、调度和临时查询等相关能力，并且该方案开放支持多引擎。适用的场景包括离线方案的优化、全链路实时化的加速、全实时链路成本的降低，以及流批存储和计算的统一等。

具体来说就是Flink与Paimon的结合能够构建一个低成本的实时化方案。在大数据架构的选型中，我们通常会面对一个“不可能三角”，即在性能、新鲜度和成本之间进行权衡。实时湖仓方案，旨在尽量在这三者之间取得一个较好的“Trade-off”。具体来说，我们希望在分钟级别的数据新鲜度条件下，实现数据实时流动，同时保持低成本。此外，对于加工处理后的数据，我们期望能够实现秒级查询响应。

这套实时湖仓方案不仅能够覆盖传统Warehouse的T+1d时效性及Lakehouse的T+1h的场景，同时还能提供分钟级数据新鲜度，让系统的时效性提升一个量级。

另一个显著特点是全链路的实时化流动。我们知道，数据的实时化处理旨在实现端到端的实时流动。在我们的方案中，可以实现全链路的实时化流动，支持实时更新，分钟级别的数据新鲜度，以及秒级的查询响应。因此，在整个流程中，我们能够达到全链路实时化流动的效果。

在具体能力方面：

（1）数据摄取：通过Flink CDC（Change Data Capture），可以实现全量和增量数据的统一处理，并支持Schema Evolution等功能。

（2）数据存储：我们基于对象存储构建了Paimon的Table，在此基础上可以实现Upsert（更新插入）和Partial-Update（部分更新）等功能。这些功能能够覆盖和支持传统Lakehouse架构的需求。

（3）数据计算：以Flink计算引擎为核心，支持流式和批量计算。同时，我们也开放支持其他计算引擎，以便让用户基于自己的业务场景进行数据计算和处理。

（4）数据查询：我们开放支持多种OLAP引擎，可以通过外表的方式直接查询，实现秒级响应。同时，也支持直接upload到对应的OLAP引擎，以加速查询进程。这其中既有低成本方案，也有高效快速的方案，用户可以灵活选择。

3. 实时入湖入仓

（1）简化操作

在实时入湖入仓的场景下，我们能够实现非常简便的操作方式。可以通过CTAS的方式分库分表合并同步，通过CDAS的方式整库同步。过程中我们所有加工的数据，可以通过SQL Script（临时查询）Select对应的数据去做查询分析。

（2）兼容表变更

同时，我们的方案也支持表变更（Schema Evolution），这一功能可以有效兼容上游数据表的Schema变化。

（3）多种过程操作

实时入湖入仓，还可以支持多种过程操作，包括Select、Where、Group by、Join、Top-N、Insert等这样一些方式，可以有效的去处理上下游的数据。

4. 低成本构建流批存储

我们基于OSS构建的Paimon Table存储方案，具备低成本和高性价比的特点。基于OSS或HDFS等低成本存储方案进行构建，帮助用户在应对海量数据存储的同时还能保持更好的性价比。此外，采用LSM Tree结构，使得读写性能能够得到很好的平衡。基于这些能力，我们的方案具备低延时、低成本、流批存储和易集成等优势。

在支持数据流批计算方面，Paimon创新的Changelog机制支持下游计算引擎订阅，让数据实时流动，这是这套方案区别于其他湖仓方案的另一个非常显著的特点。基于File Store和Log Store两条存储路径，提供更新（Update）和删除（Delete）操作，更好地支持数据流计算和批计算。同时，我们支持列格式的存储和压缩优化，提升数据存储的效率。

5.阿里云实时计算Flink产品丰富的企业级能力

（1）在数据摄取上，它支持Flink CDC，可以实现全量和增量数据一体化处理，包括整表合并和分库分表同步。同时，我们还计划推出新的开发方案，例如基于Yaml的开发方式，以更接近自然语言的方式进行数据摄取的开发。在数据连接方面，平台内置了三十多种主流数据产品的连接器，并且支持自定义Connector或Format的方式进行数据连接和开发。

（2）在任务开发和调度测试方面支持流批计算、多语言、多版本以及动态CEP，还提供了统一元数据管理（Catalog）。此外，实现了开发和生产环境的隔离，并提供了测试数据的管理和生成调试功能。我们还支持临时查询功能，帮助数据工程师在开发过程中进行基础的数据查询和分析。同时平台还可以对外提供开发环境，支持客户平台对于阿里云实时计算Flink产品的集成。

（3）在运维方面，我们支持批任务的调度，工作流可以帮助简化批流任务的运行和管理。我们还具备数据血缘分析、智能诊断、自动调优、资源队列管理、状态管理和变量管理等功能。

以上就是我对于Flink产品以及基于Flink + Apache Paimon构建的实时湖仓方案介绍。

四、典型落地客户案例（以汽车行业为例）

接下来我们就看一些具体的落地的场景。当然我们还是以汽车场景为例。

在车联网的应用中，以Flink和Apache Paimon为核心构建了一套实时湖仓方案，数据存储在Apache Paimon on OSS上，计算引擎选择阿里云实时计算Flink或EMR-Spark进行实时数据或批数据计算，查询分析层采用StarRocks作为查询分析引擎。整体架构从Flink CDC开始，同步数据到Paimon表存储，通过Flink进行数据流批计算，通过EMR-Spark进行大量批计算。架构整体简洁、全链路可实时化流动、流批统一、查询可加速，帮助用户实现高性价比实时化升级，提升了业务数据实时获取的能力。