《Apache Flink 案例集(2022版)》——5.数字化转型——中信建设-Apache Flink 在国有大型银行智能运营场景下的应用(下)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 《Apache Flink 案例集(2022版)》——5.数字化转型——中信建设-Apache Flink 在国有大型银行智能运营场景下的应用(下)

《Apache Flink 案例集(2022版)》——5.数字化转型——中信建设-Apache Flink 在国有大型银行智能运营场景下的应用(上) https://developer.aliyun.com/article/1227900



应用场景

Flink流处理在中信应用于三个不同的场景,包括零售业务实时指标统计、基金投顾实时指标统计和资金流水明细查询。

image.png


零售业务线实时指标是管理驾驶舱的重要组成部分,决策者通过分析公司运营指标,对公司的运营和发展作出合理决策。  


面向零售业务设计实时数仓,需要获得开户统计、客户服务、APP 运营几个主题的统计指标,根据实时数据处理架构和数据仓库分层的设计,面向零售业务的实时数仓可以分为以下几个流程:  


首先是构建 ODS 层数据,实时采集客户信息表、业务流水表、渠道表等相关基础表的 CDC 日志。每个业务库的数据表对应接入到一个 Kafka 的 topic 中建立实时数仓的 ODS 层;


其次是 DWD 层的数据建模,创建 Flink 任务消费 ODS 层的 Kafka 消息,进行数据清洗,过滤、脱敏、关联转换等处理。同时以客户账户粒度进行数据合流,借助离线维表进行扩围操作,以获得账户粒度的明细表,实现 DWD 层的建立;


之后是 DWS 层的数据建模,基于 DWD 层的数据进行汇总,通过分析业务需求,将 DWD 层的数据按照主题进行划分,汇总出渠道服务主题宽表、业务部运营主题宽表、交易产品主题宽表等公共指标宽表,建立 DWS 层;


最后根据实际业务需求,计算业务指标建立 ADS 层。对于一部分用户账户粒度的业务指标,可通过 DWD 层的明细直接计算得到,部分粗粒度的业务指标比如 APP 渠道服务客户人数、投顾产品阅读人数等,可以通过 DWS 层计算获得。最终计算结果接入到数据网关将数据统一提供给下游系统或通过 BI 系统展示。  


image.png


基金业务在证券行业的重要性日益凸显,它能实时提供基金投顾产品的销售信息,为基金投顾及时调整策略提供数据支持。基金投顾场景的数据有三个特点:  


第一,涉及的数据规模比较小;

第二,数据在开盘时间提供给公司内部人员查看;

第三,数据对准确性的要求特别高。  


针对数据量小的特点,中信将数据指标结果输出到 Oracle 关系数据库;针对开盘时间将数据供给内部人员查看的特点,通过开启实时任务的启停策略,将更多的资源留给夜间跑批的任务来使用;针对数据准确性要求很高的特点,通过夜间离线跑批的方式对数据进行修正,以保证数据的准确性。  


原来的方案是通过页面触发存储过程来读取数据,而且读取的数据不是源系统数据,存在分钟级别的延迟。而实时数据加工方案通过实时推送客户新增、追加、签约、保有、签约率、规模等维度的指标,让业务部门可以更高效地掌握核心数据。

image.png

资金流水实时ETL场景主要满足业务人员在开盘期间快速查询客户某个时间段内的交易流水明细数据。它需要解决三个问题:

第一,资金流水明细总共几十亿条数据,数据量很大的情况下,如何做到快速查询?

第二,开盘时间内满足业务人员查询,且非开盘时间内数据量较小,是否采用定时调度?

第三,资金流水一定不能出错,如何保证数据的准确性?  


针对数据量大的特点,中信最终选择通过HBase组件来存储数据,通过合理设计RowKey与建立数据分区,达到快速查询指定时间段内的资金流水明细情况;针对非开盘时间内交易数据量很小的特点,开启任务的定时启停策略,将更多的资源留给夜间跑批任务;针对数据准确性要求高的特点,通过离线数据修正的方法来达到准确性的要求。



未来规划


中信目前正在开发中的场景分为以下几个方面:  账户资产,包括实时资产持仓指标统计,客户交易盈亏、交易记录的分析; 营销知识,包括MOT流失客户提醒与召回、开户未成功客户提醒与跟踪、两融业务潜在新客户的挖掘、电商 APP 活动的内容与内容运营; 风控,包含以客户维度的持仓集中度指标,以公司维度的融资额度占公司净资本等指标的分析统计。  另外中信正在调研 OLAP 多维分析组件,由于目前实时开发仍然采用 Lambda 架构,结果表存储组件涉及到关系型数据库比如 MySQL、SQL Server、Oracle 以及 NoSQL 数据库比如 HBase、ES、Redis。数据孤岛是目前面临的严重问题,希望通过 OLAP 组件实现实时数据的与离线数据的统一写入,实现流批一体,打破目前数据孤岛的局面,希望在流批一体存储层达到统一存储、统一对外服务、统一分析处理的目的。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
24天前
|
存储 运维 关系型数据库
探索 Apache Paimon 在阿里智能引擎的应用场景
本文整理自Apache Yarn && Flink Contributor,阿里巴巴智能引擎事业部技术专家王伟骏(鸿历)老师在 5月16日 Streaming Lakehouse Meetup · Online 上的分享。
24492 28
探索 Apache Paimon 在阿里智能引擎的应用场景
|
10天前
|
存储 缓存 Apache
Apache Paimon 在蚂蚁的应用
本文整理自 Apache Paimon Committer 闵文俊老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享。Apache Paimon 是一种实时数据湖格式,设计用于流批一体处理,支持实时更新和OLAP查询。它采用LSM Tree结构,提供多种Changelog Producer和Merge Engine,支持高效的数据合并。Paimon适用于流读、批读及时间旅行查询,与多种查询引擎兼容。在蚂蚁集团的应用中,Paimon降低了资源开销,提升了查询性能,简化了研发流程,特别是在去重、核对场景和离线查询加速方面表现突出。
240 7
Apache Paimon 在蚂蚁的应用
|
22天前
|
JavaScript 前端开发 Java
Java数字化产科管理系统源码,多家医院应用案例,可直接上项目
Java开发的数字化产科管理系统,已在多家医院实施,支持直接部署。系统涵盖孕产全程,包括门诊、住院、统计和移动服务,整合高危管理、智能提醒、档案追踪等功能,与HIS等系统对接。采用前后端分离架构,Java语言,Vue前端,若依框架,MySQL数据库。优势在于提升就诊效率,降低漏检率,自动报表生成,减少重复工作,支持数据研究,并实现医院与卫计委平台的数据互通,打造全生育周期健康服务。
31 4
|
10天前
|
监控 数据可视化 BI
基于Dataphin+Flink构建期货交易监察实时应用
新一代证券交易监察系统利用大数据和实时计算技术强化风险控制、交易数据处理、识别异常交易等能力。通过Dataphin与Flink结合,构建期货交易监察实时数据应用;借助QuickBI用于打造实时看板和预警体系,实现期货交易监察的实时可视化分析和自动化预警。
161 0
|
23天前
|
存储 大数据 关系型数据库
从 ClickHouse 到阿里云数据库 SelectDB 内核 Apache Doris:快成物流的数智化货运应用实践
目前已经部署在 2 套生产集群,存储数据总量达百亿规模,覆盖实时数仓、BI 多维分析、用户画像、货运轨迹信息系统等业务场景。
|
1月前
|
消息中间件 存储 大数据
深度分析:Apache Kafka及其在大数据处理中的应用
Apache Kafka是高吞吐、低延迟的分布式流处理平台,常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ(吞吐量有限)、Pulsar(多租户支持但生态系统小)和Amazon Kinesis(托管服务,成本高)对比,Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素,使用时注意资源配置、数据管理、监控及安全性。
|
1月前
|
监控 大数据 Java
使用Apache Flink进行大数据实时流处理
Apache Flink是开源流处理框架,擅长低延迟、高吞吐量实时数据流处理。本文深入解析Flink的核心概念、架构(包括客户端、作业管理器、任务管理器和数据源/接收器)和事件时间、窗口、状态管理等特性。通过实战代码展示Flink在词频统计中的应用,讨论其实战挑战与优化。Flink作为大数据处理的关键组件,将持续影响实时处理领域。
279 5
|
2月前
|
消息中间件 Java Kafka
实时计算 Flink版操作报错之Apache Flink中的SplitFetcher线程在读取数据时遇到了未预期的情况,该怎么解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
15天前
|
关系型数据库 API Apache
Flink CDC:基于 Apache Flink 的流式数据集成框架
本文整理自阿里云 Flink SQL 团队研发工程师于喜千(yux)在 SECon 全球软件工程技术大会中数据集成专场沙龙的分享。
17400 11
Flink CDC:基于 Apache Flink 的流式数据集成框架
|
10天前
|
Prometheus Cloud Native 关系型数据库
实时计算 Flink版操作报错合集之实时计算 Flink版操作报错合集之当从保存点恢复并添加新的表时,出现了org.apache.flink.util.FlinkRuntimeException异常,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

热门文章

最新文章

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多