更多精彩内容,欢迎观看:
带你读《Apache Doris 案例集》——04 星云零售信贷 基于 Apache Doris 的 OLAP 演进之路(1):https://developer.aliyun.com/article/1405754
Apache Doris 助力信货业务场景落地
基于ApacheDoris 的功能实践,我们建设了星云零售管理后台、自助报表等一体化业务分析平台。接下来,我们主要介绍在业务场景落地过程中,风控大数据报表平台、统一日志存储分析与用户行为分析的业务实践。
互式分析查询,实现风控大数据平台智能化
如上图所示,星云管理后台会对风控数据进行分析,涉及授信情况分析、用信分析、放款结构分析、拒绝申贷原因分析等报表业务,我们希望通过风控报表平台实现风控策略化、智能化,提升线上的风控能力、提高审批效率并完善信贷业务流程。以授信情况分析为例,具体的操作流程如下:
● 数据调度:指标数据首先通过DolphinScheduler和 Shell任务编排实现风控离线数仓各分层数据的调度与流通、统一管理。
● 数据同步:借助Apache Doris 的 JDBCCatalog 以Insert Into 的方式,将多个外部源表中的数据增量导入数仓贴源层,实现统一建模、统一数据口径。
● 数据处理: 在 Apache Doris 的 DW 层中进行数据关联分析、聚合、日区分落盘等操作,最终结合维表数据共同创建物化视图或者落地大宽表。基于 Apache Doris的分层存储与数据处理,我们的报表开发时间从天级别提升至小时级别,大幅提高报表开发的效率。
●数据分析:基于以上三个步骤,业务人员可以在平台中进行自定义交互式分析查询,如查询某一段时间内授信额度区间的占比,并以饼状图形式呈现。
极致性价比,达成统一日志存储分析
星云零售在业务运营过程中会存在大量的日志存储分析场景,如使用 API 访问异常日志。在引入Apache Doris 之前,我们使用Grafana +Loki进行多节点本地支持存储,这种方式不仅无法保证存储统一性,并且增加运维成本。
在引入Apache Doris 后,我们基于 Stream Load 自定义开发 Flume Sink 与 Tail Dir 日志采集组件,能够支持动态配置,使节点灵活且易于扩展。我们还采用了Apache Doris 的动态分区表模型,实现动态添加分区或者删除分区,减少了运维过程中的使用负担。更重要的是,Apache Doris 提供了极致的列存储压缩比,使存储成本大幅度下降,并且2.0版本的倒排索引功能支持文本类型的全文检索,也能对普通数值日期的等值、范围查询进行加速,能够从海量数据中秒级 检索出满足条件的日志,更加契合我们后续对日志数据分析的需求。总而言之,基于 Apache Doris 的实时日志存储功能为我们提供了全面的实时预警监控、实时监控大屏、故障分析等能力,真正意义上实现统一实时的日志存储分析。
JSON统一存储+丰富解析函数,助力用户行为日志分析
在营收信贷业务过程中,我们会对潜在客户进行广告投放,通过自动获取用户行为日志数据,分 析信贷需求来加强营销活动、提升获客效果,达到精准投放的目的。我们借助Stream Load 自 定义的日志采集工具收集用户在小程序或者App 中的访问日志, 利用 JSON 统一存储功能与丰富的解析函数对行为日志进行实时查询分析、跑批离线宽表加工等操作。
在这一过程中 ,Apache Doris 的引入使用户行为日志降低70%的存储成本,同时提供了丰富 且开箱即用的用户行为分析函数,避免业务人员重复进行复杂 SQL 函数编写、验证、推导再应用,极大提高了数据开发效率,为后续广告精准投放提供了强有力的数据支持。
总结收益
当前,腾梭科技星云零售信贷业务基于Apache Doris 搭建了高度统一实时的数据仓库,实现星 云管理后台中的风控报表管理、运营报表管理、用户行为日志分析等信贷业务应用。 Apache
Doris 的引入为我们带来以下收益与成果:
● 灵活数据分析: 不论是业务端还是数据开发端,都可以基于 Doris 支持自定义导数、动态配 置,实现灵活及易扩展的多维数据分析。
● 查询快速响应: 从业务层面来看,现阶段的风控信贷点查、偏离计算等复杂场景都可以基于 Apache Doris进行多表关联,并且实现毫秒级查询响应,大幅提升查询效率。
● 交付效率提升:助贷业务的核心业务为客户管理,在引入 Apache Doris后,其数据分层存 储与开箱即用的分析函数,在用户行为、信用评估、风险控制等多方面提供了有效报表分析,以挖掘更多潜在用户,大幅提升交付效率,实现精准获客的目标。
● 综合成本降低: 与之前数据源端存储不同, Apache Doris 极致的存储压缩比,降低了70 % 的存储成本。同时, Apache Doris 支持集群节点进程保活、自动均衡极致,几乎达到零运维,为公司运维成本控制提供了核心收益。
未来规划
未来,我们希望基于 Apache Doris冷热分层技术实现统一的数据归档功能,将冷数据、历史数据定时进行归档,进一步优化数仓存储空间。同时,利用Apache Doris 湖仓一体功能实现智能数据网关,使Schema列类型等元数据能够映射至Apache Doris的数据结构中,形成统一元数据映射结构,提供一致性的查询体验。
最后,感谢 Apache Doris 社区和 SelectDB 技术团队在数仓搭建过程中的积极响应与技术支持,未来我们也会持续参与社区活动,将相关成果贡献回馈社区,希望Apache Doris 飞速发展,越来越好!