Flink实时湖仓,为汽车行业数字化加速!

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 本文由阿里云计算平台产品专家李鲁兵(云觉)分享,聚焦汽车行业大数据应用。内容涵盖市场趋势、典型大数据架构、产品市场地位及能力解读,以及典型客户案例。文章详细介绍了新能源汽车市场的快速增长、大数据架构分析、实时湖仓方案的优势,以及Flink和Paimon在车联网中的应用案例。

摘要:本文整理自阿里云计算平台产品专家李鲁兵(云觉)老师在阿里云实时计算Flink产品介绍中的分享。本次分享主要面向汽车行业场景的专项介绍,内容分为以下四个部分:

  1. 洞察趋势:市场浅谈(以汽车行业为例)

  2. 典型大数据架构分析(以汽车行业为例)

  3. 产品市场地位及能力解读

  4. 典型落地客户案例(以汽车行业为例)

一、洞察趋势:市场浅谈(以汽车行业为例)

中国新能源汽车市场快速增长

图片 1

新能源汽车行业作为国家新智生产力方向之一,行业呈现飞速发展态势。据统计,预计到2025年,将有1300万台新能源车在线运行,从2022年到2026年,新能源车的复合增长率预计将达到35.1%,这表明该行业正处于一个高速发展的阶段。车辆规模增长对大数据系统提出了更高要求,具备实时、高性价比的大数据系统,能更好支撑汽车行业实现数字化和智能化发展目标。

数据实时化是汽车行业大数据应用的重点方向之一,在线采集是实时处理的最大场景。

图片 2

在汽车行业中,在线数据采集是数据处理的最大场景。针对整个汽车行业,我们进行了多种场景的分析,主要包括销售/经营、车联网以及自动驾驶。以下仅列举了一些典型场景,其他与车辆相关的应用场景在此不做详细展开。

  1. 销售/经营:销售经营方面与其他零售行业比较类似,涉及门店流量监控、指标监测、用户画像圈选、客户满意度评估以及售后维护等方面。此外,还包括供应链管理在内的各种数据应用。

  2. 车联网:车联网主要利用车辆传感数据和位置信息进行应用。在预测性维护、远程诊断、基于位置的应用、车辆统计以及OTA在线更新等方面,车联网都有广泛的应用。

  3. 自动驾驶:此外,还有自动驾驶相关的业务,包括辅助驾驶、高精度地图、安全预警等应用。

数据海量、低密度、峰谷明显是汽车大数据的典型特点,实时化、低成本是高质量发展的业务要求。

图片 3

上图展示了我们对汽车行业客户场景特点的画像。第一个关键词:海量。随着新能源汽车市场竞争的加剧,新能源汽车变“卷”。如今对实时高效的数据处理需求变得更加迫切,同时也需关注成本控制。每辆车每分钟至少采集400KB的数据,即使是10万级车辆同时在线,也是一个非常庞大的数据量,如何处理海量数据是一个巨大的挑战。

第二个是数据价值密度低。单辆车采集的数据字段超过1000个甚至达到3000个以上。在这些字段中,数据的时效性和有效性各不相同,部分数据在部分时间段的利用率相对较低。因此,从海量数据中挖掘有价值的信息变得更加具有挑战性。

第三个是峰谷明显。出行需求跟时间段有密切关系,呈现明显的峰谷特点。

我们可以看到,车辆上的一些数据对于实时化要求非常高。业务上希望在数据上传后,能够进行实时解析。在数据应用方面,也希望能够实现实时或近实时的业务应用。

在自动驾驶的场景中,客户也会更加关注实时化,特别是预警功能。他们期望能够在秒级时间内获取车辆自动驾驶相关的统计数据。在销售或营销场景中,则期望、数据统计和分析、在线营销数据支持等能够尽量实现实时化。

二、典型客户大数据架构分析(以汽车行业为例)

接下来是典型的大数据架构分析。由于汽车业务整体非常复杂且庞大,我在这里整理了一个参考的业务架构图。需要注意的是,不同的客户和厂商可能有各自的业务特点,因此会有不同的架构设计。这张架构图仅作为一个参考。

1. 整体业务架构

图片 4

这张架构图分为四层:

  1. 数据采集层:最大的数据显示来源是车辆本身。车辆的数据主要通过车载终端的埋点数据采集,这部分数据量非常大。此外,车联网相关的厂商或运营商也会有自己的用户端APP或应用系统,这些系统中的埋点数据也是一个重要的数据来源。同时,在生产研发和供应链环节中,也存在各种类型的数据。

  2. 数据层:基于原始数据采集,对数据进行加工处理,形成分域分主题的数据。这些主题域的数据包括用户数据、车辆数据、三电数据等。通过这种方式,我们能够将大量的原始数据组织成特定主题的数据域,以便后续的分析和应用。

  3. 应用层:典型的场景包括移动端、PC端和大屏端,因此车辆相关的一些应用场景对于各个终端的覆盖非常全面。在销售、财务、研发、质量和供应链等场景下,都有非常丰富的应用。除了这些应用之外,我们还可以看到车辆数据和经营销售等相关的数据。如果我们希望高质量地支撑业务,就必须制定一些标准,因此还存在标准层。

  4. 标准层:这一层规定了数据战略、数据架构、数据安全、数据质量、数据标准、数据生命周期、数据指标以及数据治理等方面的标准。

2. 典型技术方案

在技术架构上,我们可以看到有两个典型的技术架构。

(1)Lambda架构

图片 5

第一个是业内常用的架构,称为 Lambda 架构。其典型特点是离线和实时处理分为两条独立的链路。在这个架构下,我进行了一些简化,离线计算使用的是 MaxCompute,实时计算则使用的是 Flink + Hologres。这只是一个参考架构,还有其他的数据和技术选型,这里不再赘述。Lambda 架构的典型特征是两条链路独立运行,实时数据和离线数据相互之间不能互通和复用。

(2)实时湖仓一体化架构

图片 6

另一个架构是最近在数据海量增长和成本压力下,厂商们开始逐步采用的新架构,即实时湖仓架构。其典型特点是以 Flink 实时计算流批一体化引擎为核心,加上 Paimon 统一流批存储,构建流批计算存储一体化方案,在数据口径、开发语义、数据复用、流批计算等可以做到更好的统一,从而提升系统应用的效率。该架构的底层通常使用对象存储 OSS,承载海量数据存储的同时也能兼顾性价比。在数据分析处理方面,可以使用 StarRocks 或 Hologres 进行数据查询分析及相关服务,兼顾高效率查询分析的需求。因此,这套架构方案在汽车行业中逐步被更多的客户所认可和实施。

三、产品市场及能力解读

阿里云位居 IDC MarketScape 中国实时湖仓评估领导者”,这一评价来自于IDC中国实时湖仓市场2024年厂商评估报告,该报告中指出,阿里云在实时湖仓产品能力上处于国内非常领先的地位。

同时,我们对这一场景也进行了核心洞察。首先,我们看到,湖仓架构从最初的广泛讨论和试验,发展到现在业内和企业的认可以及规模化落地,这已是非常明确的趋势。其次,湖仓架构开源开放,兼容流计算、批计算和OLAP等计算范式,这对于汽车行业的用户来说更加开放和灵活。在数据的新鲜度方面,我们希望湖仓架构能够提供更好的实时性支持。此外,围绕湖仓架构,在元数据管理、数据安全和数据质量治理上,将成为后续企业应用的重点。

1. 实时化过程

图片 8

再回到大数据的实时化过程。我们可以看到,当前有几个明显的趋势:公共云、实时化、AI化。汽车行业现在非常拥抱公共云,因为在云上可以获得广泛的大数据和AI处理能力,也可以更好的满足行业飞速发展带来的基础设施快速增长的需求。今天我们重点介绍实时计算Flink产品,因此将重点关注实时化方向。

整个数据架构的发展经历了三个主要阶段:

(1)第一个阶段:引入数据仓库,同时引入数据湖的概念,基于HDFS构建数据湖。

(2)第二个阶段:融入湖仓方案。在这个阶段,我们看到许多开源的湖仓架构方案,包括Hudi、Iceberg等。然而,这些开源方案主要面向批量计算场景设计,因此在实时化支持上相对较弱。

(3)第三个阶段:进入3.0时代,我们期望原生支持湖仓的实时化和AI化。基于Apache Paimon和实时计算Flink产品,我们构建了实时湖仓的底层架构,推动了这一阶段的快速发展。

2. 整体方案

图片 9

具体来看,这个方案以实时计算Flink产品为核心引擎,构建了一个实时湖仓的整体架构。数据来源方面,车联网会涉及车载数据的采集,同时还包括一些应用上Database的数据采集。我们可以通过Flink以流批处理的方式,将数据采集到Apache Paimon Table中。基于这些Table,可以使用Flink进行流批计算,进一步加工后续下游的分层数据。在计算层面,这就是整个流程。而在数据分析层和查询层,我们可以使用StarRocks、Hologres等作为核心的OLAP(在线分析处理)引擎,对数据进行查询和分析。

这套完整的方案基于低成本存储构建了Paimon Lakehouse,并深度集成了Flink,实现了全链路的实时化。其核心优势在于低成本和全链路实时化的特点,同时实现了流批存储和流批计算的统一。其中,流批存储是基于OSS(对象存储服务)构建的Paimon Table,而流批计算则由Flink支持流和批的计算。同时,这个平台具备数据管理、调度和临时查询等相关能力,并且该方案开放支持多引擎。适用的场景包括离线方案的优化、全链路实时化的加速、全实时链路成本的降低,以及流批存储和计算的统一等。

图片 10

具体来说就是Flink与Paimon的结合能够构建一个低成本的实时化方案。在大数据架构的选型中,我们通常会面对一个“不可能三角”,即在性能、新鲜度和成本之间进行权衡。实时湖仓方案,旨在尽量在这三者之间取得一个较好的“Trade-off”。具体来说,我们希望在分钟级别的数据新鲜度条件下,实现数据实时流动,同时保持低成本。此外,对于加工处理后的数据,我们期望能够实现秒级查询响应。

这套实时湖仓方案不仅能够覆盖传统Warehouse的T+1d时效性及Lakehouse的T+1h的场景,同时还能提供分钟级数据新鲜度,让系统的时效性提升一个量级。

图片 14

另一个显著特点是全链路的实时化流动。我们知道,数据的实时化处理旨在实现端到端的实时流动。在我们的方案中,可以实现全链路的实时化流动,支持实时更新,分钟级别的数据新鲜度,以及秒级的查询响应。因此,在整个流程中,我们能够达到全链路实时化流动的效果。

在具体能力方面:

(1)数据摄取:通过Flink CDC(Change Data Capture),可以实现全量和增量数据的统一处理,并支持Schema Evolution等功能。

(2)数据存储:我们基于对象存储构建了Paimon的Table,在此基础上可以实现Upsert(更新插入)和Partial-Update(部分更新)等功能。这些功能能够覆盖和支持传统Lakehouse架构的需求。

(3)数据计算:以Flink计算引擎为核心,支持流式和批量计算。同时,我们也开放支持其他计算引擎,以便让用户基于自己的业务场景进行数据计算和处理。

(4)数据查询:我们开放支持多种OLAP引擎,可以通过外表的方式直接查询,实现秒级响应。同时,也支持直接upload到对应的OLAP引擎,以加速查询进程。这其中既有低成本方案,也有高效快速的方案,用户可以灵活选择。

3. 实时入湖入仓

(1)简化操作

图片 12

在实时入湖入仓的场景下,我们能够实现非常简便的操作方式。可以通过CTAS的方式分库分表合并同步,通过CDAS的方式整库同步。过程中我们所有加工的数据,可以通过SQL Script(临时查询)Select对应的数据去做查询分析。

(2)兼容表变更

图片 13

同时,我们的方案也支持表变更(Schema Evolution),这一功能可以有效兼容上游数据表的Schema变化。

(3)多种过程操作

图片 15

实时入湖入仓,还可以支持多种过程操作,包括Select、Where、Group by、Join、Top-N、Insert等这样一些方式,可以有效的去处理上下游的数据。

4. 低成本构建流批存储

图片 16

我们基于OSS构建的Paimon Table存储方案,具备低成本和高性价比的特点。基于OSS或HDFS等低成本存储方案进行构建,帮助用户在应对海量数据存储的同时还能保持更好的性价比。此外,采用LSM Tree结构,使得读写性能能够得到很好的平衡。基于这些能力,我们的方案具备低延时、低成本、流批存储和易集成等优势。

图片 17

在支持数据流批计算方面,Paimon创新的Changelog机制支持下游计算引擎订阅,让数据实时流动,这是这套方案区别于其他湖仓方案的另一个非常显著的特点。基于File Store和Log Store两条存储路径,提供更新(Update)和删除(Delete)操作,更好地支持数据流计算和批计算。同时,我们支持列格式的存储和压缩优化,提升数据存储的效率。

5.阿里云实时计算Flink产品丰富的企业级能力

图片 18

(1)在数据摄取上,它支持Flink CDC,可以实现全量和增量数据一体化处理,包括整表合并和分库分表同步。同时,我们还计划推出新的开发方案,例如基于Yaml的开发方式,以更接近自然语言的方式进行数据摄取的开发。在数据连接方面,平台内置了三十多种主流数据产品的连接器,并且支持自定义Connector或Format的方式进行数据连接和开发。

(2)在任务开发和调度测试方面支持流批计算、多语言、多版本以及动态CEP,还提供了统一元数据管理(Catalog)。此外,实现了开发和生产环境的隔离,并提供了测试数据的管理和生成调试功能。我们还支持临时查询功能,帮助数据工程师在开发过程中进行基础的数据查询和分析。同时平台还可以对外提供开发环境,支持客户平台对于阿里云实时计算Flink产品的集成。

(3)在运维方面,我们支持批任务的调度,工作流可以帮助简化批流任务的运行和管理。我们还具备数据血缘分析、智能诊断、自动调优、资源队列管理、状态管理和变量管理等功能。

以上就是我对于Flink产品以及基于Flink + Apache Paimon构建的实时湖仓方案介绍。

四、典型落地客户案例(以汽车行业为例)

接下来我们就看一些具体的落地的场景。当然我们还是以汽车场景为例。

图片 20

在车联网的应用中,以Flink和Apache Paimon为核心构建了一套实时湖仓方案,数据存储在Apache Paimon on OSS上,计算引擎选择阿里云实时计算Flink或EMR-Spark进行实时数据或批数据计算,查询分析层采用StarRocks作为查询分析引擎。整体架构从Flink CDC开始,同步数据到Paimon表存储,通过Flink进行数据流批计算,通过EMR-Spark进行大量批计算。架构整体简洁、全链路可实时化流动、流批统一、查询可加速,帮助用户实现高性价比实时化升级,提升了业务数据实时获取的能力。

图片 21

最后,我们还有一个附录,列出了一些车辆的数据类型作为参考。这些数据类型包括整车数据、驱动电机数据、燃料电池数据等。这个附录仅供参考。

以上就是我今天分享的全部内容。如果大家希望详细了解,可以扫码参与试用,同时也可以查看实时计算Flink版产品的详情页,了解具体的产品功能。感谢大家的参与,期待我们在线下进行更深入的交流。

图片 22

相关文章
|
5天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
7天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1559 10
|
1月前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
11天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
718 27
|
7天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
223 3
|
2天前
|
Python
【10月更文挑战第10天】「Mac上学Python 19」小学奥数篇5 - 圆和矩形的面积计算
本篇将通过 Python 和 Cangjie 双语解决简单的几何问题:计算圆的面积和矩形的面积。通过这道题,学生将掌握如何使用公式解决几何问题,并学会用编程实现数学公式。
107 60
|
14天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
744 5
|
3天前
|
Java 开发者
【编程进阶知识】《Java 文件复制魔法:FileReader/FileWriter 的奇妙之旅》
本文深入探讨了如何使用 Java 中的 FileReader 和 FileWriter 进行文件复制操作,包括按字符和字符数组复制。通过详细讲解、代码示例和流程图,帮助读者掌握这一重要技能,提升 Java 编程能力。适合初学者和进阶开发者阅读。
102 61
|
14天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
3天前
vue3+Ts 二次封装ElementUI form表单
【10月更文挑战第8天】
122 57