带你读《Apache Doris 案例集》—— 02 河北幸福消费金融基于Apache Doris 构建实时数仓,查询提速400倍!(2)

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Tair(兼容Redis),内存型 2GB
简介: 带你读《Apache Doris 案例集》—— 02 河北幸福消费金融基于Apache Doris 构建实时数仓,查询提速400倍!(2)

更多精彩内容,欢迎观看:

带你读《Apache Doris 案例集》—— 02 河北幸福消费金融基于Apache Doris 构建实时数仓,查询提速400倍!(1):https://developer.aliyun.com/article/1405775


应用实践

 

实时数据归集

 

公司的业务系统通常是按照产品进行库划分,各个产品表结构保持一致。而实时数仓核心功能就是依靠 Doris丰富的导入能力,将分散的库对应的相同的逻辑表归集到Doris下的同一个逻辑表上,汇集后的数据也能在监管主题层面进行整体调整,避免烟囱效应的发生。汇集的实时数据进入数仓后,会主动触发衍生变量的自动计算,更新衍生变量的值。而衍生变量的汇总值在一个单独的表中,当进行查询时,可以实现毫秒级别的查询响应。 

 

在进行实时数仓归集时,首先需要确定 FlinkCDC、Flink、Flink on Yarn、Apache Doris等核心组件的版本号,接着基于 PyFlink进行产品化自动接入实时数仓的建设。具体操作如下:

 

在数据层面,将业务系统数据库按照水平和垂直进行切分,以提升读写性能并增加高可用性。

 

在数仓层面,我们对业务表的数据进行了维度汇集,以便进行更好的统一汇总分析。

 

在数据接入方面,我们需要高效地接入现有业务系统的存量数据,并持续稳定地接入增量数据。

 

此外,我们还提供了标准化的接入方案和接口,以满足不同业务场景的需求。


使用步骤:

 

1.接入配置表:配置归集的业务库表的相关信息。

 image.png 

 2.调度系统部署:通过调度系统部署实时归集的任务  image.png

 

3.任务常规运维:我们对任务上线、启动、停止和异常恢复处理等功能进行了高度封装,并与分布 式 调 度 系统  Airflow 进行了深度集成和融合。使用人员不必关心底层细节,可以轻松地将MySQL  键迁移到 Doris,    实现存量和增量数据的自动化迁移。经沟通,社区目前已发布了Doris-Flink-Connector1.4.0 版本,该版本集成了 Flink  CDC,可以实现了从 MySQL  等关系型数据库到Apache   Doris 的一键整库同步。 

 

数据质量监控

 

离线数仓存在各种数据质量问题,这些问题通常在数据跑批时才会暴露出来,导致数据修复时间窗口急剧被压缩。为了解决这个问题,我们利用 Doris 立了数据质量监控系统,同时将离线数仓的数据质量监控模型迁移到Doris  基于该系统可以实时监控业务指标和数据质量,并在发现问题时及时进行人工干预或报警,提高离线数仓跑批的稳定性和效率。另外当实时数仓获取归集后的数据后,可通过数据质量监控系统的校验规则第一时间对数据质量进行实时检查,保证数据归集的准确性。

image.png  

目前我们已经将30%的数据监控指标和35个业务指标迁移到Doris 实时集群上,每月可成功规避问题3次以上,有效提升了离线数仓跑批的数据质量。后续我们将继续将更多的数据监控指标和业务指标迁移到 Doris 集群中,以进一步提高数据处理的效率和质量。

 

 数据联邦查询


 各业务条线的核心数据存储在不同类型的数据库中,如MySQLHiveES  等。Apache Doris

1.2 版本提供的 Multi   Catalog 功能可以统一数据查询出口、实现联邦查询,为数据分析提供了极大的便利。同时,借助 Doris  的持久化能力,可以通过外表的方式快速同步其他数据源数据, 方便快捷。此外,通过 Apache  Doris 聚合查询、向量化引擎等技术的加持,们真正实现了高效的数据统一门户,提高了数据分析的效率 

 

优化经验

 

负载均衡 

 

随着 Doris 接入的业务量不断增加,FE  的负载也在不断增长。为了实现 Doris 的高可用性,我们增加了 FE 节点数,在多个 FE 节点上部署负载均衡层。我们选择基于Nginx  TCP 反向代理的方式来构建 FE 的负载均衡,有效地实现了FE 角色之间的负载均衡。具体配置方式如下:

image.png 

查询优化

 

当前审批系统的业务数据持久化在关系型数据库MySQL  中,累计总进件量将近2.8亿。为了应对日益膨胀的的数据问题,业务系统的数据库采用了分表和数据归档的设计思路。但是在业务上,我们仍需要对全量数据进行业务查询,并且时效要求在3秒内返回结果。以下是查询需求的抽象分类:

 

申请编号”,“客户编号”,“身份证号”,“核心客户号中的一个或多个作为查询条件进行查询

 

申请日期更新日期中的一个条件,结合姓名申请类型进件渠道白名渠道决策阶段审批类型审批结果等形成复核条件做查询

 

申请日期更新日期中的任意一个为条件,对近一周的审批明细数据进行查询查询

 

为了满足以上查询场景的需求,我们将审批进件数据结合Doris 引擎的分区分桶技术、布隆过滤器和位图索引进行合理的设计,最终整体实现了满足业务上3秒内的查询效率需求。

 

优化策略:

 

分区: apply_tim

 

分桶:IDdatabase_nametable_name

 

布隆索引:id_number,bhb_customer_id,customer_name,customer_id,serial_no

 

apply_source,white_channel,approval_result,approval_status,product_type,decision stage

 

基于上述查询的压测指标效果如下:

 image.png

 运维管理

image.png 

通过Doris 提供的 Prometheus  Grafana 可以快速获取 Doris集群的整体健康状况以及各个角色的多方面指标值。同时我们还将监控平台与公司统一告警平台进行二次融合,告警平台可以通过 API 获取 Prometheus    的基础指标值与阈值进行比较,从而触发不同级别的报警或者达到服务自动重启。此外,我们在FE BE  服务级别上实现任务的自动运维,确保在服务异常时能够自动拉起,保证核心服务的可用性。

 

总结收益

 

Doris  已经在公司内部得到了广泛应用,目前已搭建数十台集群规模,为公司带来了以下收益 

 

数据处理时效提升:数据处理的时效从T+1到实时,解决了离线数据延迟的问题。 

 

秒级查询响应:借助 Doris 分区分桶、物化视图、布隆索引等功能进行查询优化,即席查询的速度从原先的20分钟左右降低到分钟甚至秒级响应,相较之前有400的速度提升。 

 

统一查询出口:依赖于 Doris强大的导入能力和 Multi Catalog 功能成功将各业务库的数据整合汇总到 Doris 中,由 Doris统一提供数据查询及分析服务,极大的提升了查询分析响应效率。

 

提升数据质量: 基于 Doris 建立了数据质量监控系统,目前我们已经将30% 的数据监控指标和35个业务指标迁移到Doris 实时集群上,有效提升了离线数仓跑批的数据质量。

 

综上所述,Doris在公司内部的广泛应用,为我们带来了多方面的收益,助力企业提升数据分析效率、降低数据管理成本、实现统一、实时、高效的数据中台建设,为业务向好发展注入了新的动力。

 

 未来我们将继续扩大Doris  的使用范围,在实时、性能、时效要求更高的业务领域发力,其次我们还将尝试使用 Doris更多的功能及新特性,一方面深化 Doris在公司的使用,另一方面我们会将真实的使用体验反馈到社区,帮助 Doris进一步迭代优化。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
4月前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
1天前
|
SQL 存储 分布式计算
Hologres+Paimon构建一体化实时湖仓
Hologres 3.0全新升级,面向未来的一体化实时湖仓。它支持多种Table Format,提供湖仓存储、多模式计算、分析服务和Data+AI一体的能力。Hologres与Paimon结合,实现统一元数据管理、极速查询性能、增量消费及ETL功能。Dynamic Table支持流式、增量和全量三种刷新模式,满足不同业务需求,实现一份数据、一份SQL、一份计算的多模式刷新。该架构适用于高时效性要求的场景,也可用于成本敏感的数据共享场景。
|
20天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
3月前
|
存储 SQL 缓存
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
|
5月前
|
存储 消息中间件 运维
招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
招联内部已有 40+ 个项目使用 Apache Doris ,拥有超百台集群节点,个别集群峰值 QPS 可达 10w+ 。通过应用 Doris ,招联金融在多场景中均有显著的收益,比如标签关联计算效率相较之前有 6 倍的提升,同等规模数据存储成本节省超 2/3,真正实现了降本提效。
招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
|
4月前
|
存储 SQL 分布式计算
Hologres 与阿里云生态的集成:构建高效的数据处理解决方案
【9月更文第1天】随着大数据时代的到来,数据处理和分析的需求日益增长。阿里云作为国内领先的云计算平台之一,提供了多种数据存储和处理的服务,其中Hologres作为一款实时数仓产品,以其高性能、高可用性以及对标准SQL的支持而受到广泛关注。本文将探讨Hologres如何与阿里云上的其他服务如MaxCompute、DataHub等进行集成,以构建一个完整的数据处理解决方案。
105 2
|
5月前
|
存储 JSON 安全
Hologres的查询能力
Hologres的查询能力【8月更文挑战第25天】
54 0
|
5月前
|
存储 缓存 容器
实时数仓Hologres构建效率问题之瘦身如何解决
提升构建效率的原则首重准确性,在确保无误的基础上优化流程。应用瘦身通过精简依赖减轻构建负担。分层构建利用底层共享减少重复工作。构建缓存存储以往结果,避免重复工序,显著提速。这些策略共同作用,有效提高构建效率与质量。
46 0
|
18天前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
308 33
The Past, Present and Future of Apache Flink
|
3月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
871 13
Apache Flink 2.0-preview released

推荐镜像

更多