《Apache Flink 案例集（2022版）》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践（3）

2023-05-25 532

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 《Apache Flink 案例集（2022版）》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践（3）

《Apache Flink 案例集（2022版）》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践（2） https://developer.aliyun.com/article/1228279

2. 建设湖仓一体

基于 Hive 的数据仓库主要存在以下几个痛点：

首先是时效性，目前基于 Hive 的数仓绝大部分是 t+1，数据产生后至少要一个小时才能在数仓中查询到。随着公司整体技术能力的提升，很多场景对数据的时效性要求越来越高，比如需要准实时的样本数据来支持模型训练，需要准实时的多维分析来帮助排查点击率下降的根因；

其次是 Hive 2.0 无法支持 upsert 需求，业务库数据入仓只能 t+1 全量同步，数据修正成本很高，同时不支持 upsert 意味着存储层面无法实现批流一体；

最后 Hive 的 Schema 属于写入型，一旦数据写入之后 Schema 就难以变更。

经过一番选型，汽车之家决定选择基于 Iceberg 来构建湖仓一体架构，如下图所示：

最底层是基于 Hive Metastore 来统一 Hive 表和 Iceberg 表的元数据，基于 HDFS 来统一 Hive 表和Iceberg 表的存储，这也是湖仓一体的基础。

往上一层是表格式，即 Iceberg 对自身的定位：介于存储引擎和计算引擎之间的开放的表格式。再往上是计算引擎，目前 Flink 主要负责数据的实时入湖工作， Spark 和 Hive 作为主要的产品引擎。最上面是计算平台，Autostream 支持点击流和日志类的数据实时入湖，AutoDTS 支持关系型数据库中的数据实时入湖，离线平台与 Iceberg 做了集成，支持像使用 Hive 表一样来使用 Iceberg，在提升数据时效性的同时，尽量避免增加额外的使用成本。

通过Flink+Iceburg+Hive实现湖仓一体架构，流量、内容、线索主题的数据时效性得到了大幅提升，从之前的天级/小时级提升到 10 分钟以内，数仓核心任务的 SLA 提前两个小时完成；同时特征工程得以提效，在不改变原先架构的情况下，模型训练的实效性从天级/小时级提升到 10 分钟级；从业务视角来看，大幅提升了数据分析的效率体验和机器学习推荐的实效。

3. PyFlink实践

引入 PyFlink主要是想把 Flink 强大的实时计算能力输出给人工智能团队。人工智能团队由于技术本身的特点，大部分开发人员都是基于 Python 语言开发，而 Python 本身的分布式和多线程支持比较弱，他们需要一个能快速上手又具备分布式计算能力的框架，来简化他们日常的程序开发和维护。

通过集成 PyFlink 汽车之家实现了对 Python 生态的基础支持，解决了 Python 用户难以开发实时任务的痛点。同时也可以方便地将之前部署的单机程序迁移到实时计算平台上，享受 Flink 强大的分布式计算能力。

未来规划

未来，汽车之家会持续优化计算资源，让计算资源的利用更加合理化，进一步降低成本。一方面充分利用自动伸缩容的功能，扩展伸缩容策略，实现实时离线计算资源的混部，利用实时离线错峰计算的优势进一步降低实时计算的服务器成本。同时团队也会尝试优化 Yarn 的细粒度资源调度，比如分配给 jobmanager 和 taskmanager 少于一核的资源，做更精细化的优化。

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

《Apache Flink 案例集（2022版）》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践（3）

2. 建设湖仓一体

3. PyFlink实践

未来规划

实时计算 Flink

热门文章

最新文章

相关产品

相关课程

相关电子书

推荐镜像