汽车之家基于Flink的实时计算平台3.0建设实践的平台建设是什么？

预算资源管控和Flink自动伸缩容为了提高资源利用率，汽车之家做的第一步就是启用预算的强控机制，与内部的资产云系统做对接并确定团队的可用预算，超出预算后任务将无法启动。同时对此定义了规范，用户需要先优化团队内的低利用率任务来释放预算，原则上资源利用率低的任务数应该控制在 10% 以内。如果无法优化，可以在资产云系统上发起团队间预算调拨的流程，也就是借资源；如果还是失败，则会由平台开白名单临时支持业务。
建设湖仓一体。汽车之家决定选择基于 Iceberg 来构建湖仓一体架构。最底层是基于 Hive Metastore 来统一 Hive 表和 Iceberg 表的元数据，基于 HDFS 来统一 Hive 表和Iceberg 表的存储，这也是湖仓一体的基础。最底层是基于 Hive Metastore 来统一 Hive 表和 Iceberg 表的元数据，基于 HDFS 来统一 Hive 表和Iceberg 表的存储，这也是湖仓一体的基础。通过Flink+Iceburg+Hive实现湖仓一体架构，流量、内容、线索主题的数据时效性得到了大幅提升，从之前的天级/小时级提升到 10 分钟以内，数仓核心任务的 SLA 提前两个小时完成；同时特征工程得以提效，在不改变原先架构的情况下，模型训练的实效性从天级/小时级提升到 10 分钟级；从业务视角来看，大幅提升了数据分析的效率体验和机器学习推荐的实效。
PyFlink实践。引入 PyFlink主要是想把 Flink 强大的实时计算能力输出给人工智能团队。人工智能团队由于技术本身的特点，大部分开发人员都是基于 Python 语言开发，而 Python 本身的分布式和多线程支持比较弱，他们需要一个能快速上手又具备分布式计算能力的框架，来简化他们日常的程序开发和维护。通过集成 PyFlink 汽车之家实现了对 Python 生态的基础支持，解决了 Python 用户难以开发实时任务的痛点。同时也可以方便地将之前部署的单机程序迁移到实时计算平台上，享受 Flink 强大的分布式计算能力。

以上内容摘自《Apache Flink 案例集（2022版）》电子书，点击https://developer.aliyun.com/ebook/download/7718 可下载完整版

汽车之家基于Flink的实时计算平台3.0建设实践的平台建设是什么？

实时计算 Flink

相关文章

相关解决方案

热门讨论

热门文章