证券机构数据治理实践,实现数据的“管、 治、用”

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 许多证券机构在推进数据治理的过程中,仍然存在数据治理驱动力不足、缺少数据治理体系规划、数据认责体系不完善、数据质量难提升等诸多问题,数据治理亟须快速提升。为充分发挥数据的资产价值,通过梳理证券期货行业监管大数据治理的需求与特殊性,对证券期货行业的大数据治理体系搭建,包括构建证券期货行业数据模型、搭建公共数据平台、建设数据服务体系以及构建组织保障体系等方面。

2016年证监会《证券公司全面风险管理规范》提出建立健全数据治理和质量控制机制。


2018年证监会发布《证券数据治理操作指引(征求意见稿)》及《证券期货业数据分类分级指引》。同年,国家工信部发布DCMM数据管理能力成熟度评估模型,提炼组织数据管理的八大过程域,将数据能力成熟度划分5个发展等级,帮助进行评价。


2022年,《证券期货业科技发展“十四五”规划》《金融标准化“十四五”发展规划》的相继发布,以夯实证券期货业通用基础标准体系,促进证券期货业数字化转型与标准化的深度融合,为证券期货业高质量发展提供更多助力。标准化对数字化转型的引领和推动作用日益显现。


但许多证券机构在推进数据治理的过程中,仍然存在数据治理驱动力不足、缺少数据治理体系规划、数据认责体系不完善、数据质量难提升等诸多问题,数据治理亟须快速提升。


为充分发挥数据的资产价值,通过梳理证券期货行业监管大数据治理的需求与特殊性,对证券期货行业的大数据治理体系搭建,包括构建证券期货行业数据模型、搭建公共数据平台、建设数据服务体系以及构建组织保障体系等方面。


证券机构数据治理解决方案

基于DataOps体系数据治理新范式

DataOps从环境管理开始,每个环境下都可以支持任务的编排、监控和自动化测试。每次进行跨环境的发布时,记录每次发布代码的版本,进行后期排查问题。在发布上线至生产后,袋鼠云的数据中台产品可将券商用户上述各个环节串联起来,券商用户从开发阶段可以一键发布至测试环境,经测试环境验证后,观察任务实例、数据产出的运行情况,运行无误后可发布至生产环境。


如下图所示,资讯、交易、风控等主题的数据从左侧的源系统流入,中间环节是各类数据处理的工具,例如数据仓库或数据集市、AI分析等,数据经过清洗、加工、汇总统计、数据治理等过程,最终通过BI、定制化报表、API等工具服务于投研、营销、经营分析等各类需求方。

基于SDOM模型高效数仓搭建与治理

通过梳理市场证券、基金、期货、债券、回购等主要交易行为,形成行业交易模式;通过逆向梳理即将上线和线上化的信息披露项目,形成行业信息披露模式。根据证券行业相关法律法规、业务规则、制度及流程等,提取市场全业务流程和数据共性,形成具有通用性、稳定性和可扩展性的围绕客户、公司、监管、产品、交易等数据模型。

基于OLAP的资讯数据校验

资讯数据作为券商主要数据源之一,应用广泛,涉及投资交易、资产管理、经纪与财富管理、资产托管等各个领域,往往会将资讯数据应用到资管投研一体化、投资交易、资产托管、融资融券等系统。同时由于业务的需求,往往需要从市面上采购多种异构数据源接口,例如Wind、聚源、财联、通联、港澳资讯等,有的券商甚至采购多达二三十种的资讯数据。


这些资讯面临以下问题:一是数据质量参差不齐,数据问题难以及时发现,频繁收到业务方的投诉:二是数据质量管理成本大,规则开发难度高:三是问题排查链路长,难以快速定位数据问题,缺乏全局统计视角:四是质量问题没有经验沉淀,类似问题频繁发生。


对于各种资讯数据,进行跨源比对,在源头进行落标、治标的工作。通过事前规则配置、事中规则校验、事后分析报告的流程化方式,对数据的完整性、准确性、规范性、唯一性、一致性等方面进行多维度评估,保障券商数据质量。

基于数据模型的标签数据治理

金融科技的快速发展,使得证券行业的载体与社交媒体、电子商务的融合越来越紧密,券商借助数据战略打破数据边界,来构建更为全面的企业营销全景视图。面对客户活动开发周期长,运营不精准,营销效果缺乏及时追踪、运行反馈不及时,通过袋鼠云客户数据洞察平台,业务人员可透明化地使用标签,将数据黑盒变成业务语言的白盒,辅助业务决策,驱动业务增长。使用场景包括网络金融部的营销运营、异常交易监控及用户生命周期管理等。

基于OneService理念打造数据服务市场

数据平台将投研、资讯、投顾数据以服务化、接口化的方式提供数据使用方,屏蔽底层数据存储、计算细节,简化和加强数据的使用。可视化生成与注册数据服务管理,快速构建数据共享服务,通过多种手段标准化管控服务,可完成从数据接口创建、发布、申请/审批、调用的全生命周期管控,形成数据市场和数据服务管理平台,提高数据开发与共享效率。

证券机构数据治理交付内容

数据平台建设

数据平台包含数据实时开发平台和数据应用平台,实现数据的“管、 治、用”。


一是构建大数据实时开发平台,覆盖从实时数据采集到实时数据开发全链路流程,并提供运维监控曲线和日志功能。具体功能如下:


1)实时采集,具备基于日志的实时数据采集和基于间隔轮询的实时数据采集方式,具有通过采集数据库的变化并进行还原的方式,将数据库静态的数据插入、更新、删除的动作转换为消息中间件的动态数据变化,或直接写入到Hive进行数据落库。


2)任务管理,平台应支持对实时同步任务的统一管理,支持FlinkSQL和Flink API作业开发支持,支持环境参数配置,历史版本管理等内容。


3)资源管理,平台支持对实时开发过程中所使用的资源进行统一管理,支持用户上传本地jar资源,注册自定义函数等操作,并可实现对资源进行多版本管理。


4)函数管理,平台集成开发过程中的常用函数,同时平台支持通过本地资源创建UDF、UDAF、UDTF函数,创建完成后用户可通过函数名称使用对应函数,也可以通过修改对应的资源文件,修改完成后重新提交任务即可实现在不修改代码的情况下实现函数更新。


二是构建数据应用平台,这里主要为数据服务平台,这是数据中台中最顶层的组成部分,是数据能力对外提供的接口层,通过数据服务平台赋能前端应用,是数据能力的出口。通过数据服务平台的建设,对数据能力进行抽象封装,系统实现以下目标:


1)封装数据能力,对外提供RESTful接口。应用通过调用RESTful服务即可获取数据内容,应用程序无需了解表结构、分库分表等细节信息。


2)横向扩展能力支持高并发和数据增长。通过增加存储节点支持数据量的增长,通过增加服务处理节点支持高并发。


3)配置化创建数据服务。开发人员可以基于底层的数据库,在管理界面配置SQL数据查询语句、参数、数据库连接、权限等内容,即可创建发布一个新的数据服务

数据服务平台的建设,将带来以下效益:


1)减少数据复制,降低成本。应用系统无需拷贝数据内容,通过服务调用获取数据,从而降低数据存储成本,特别是包含历史数据查询的应用场景。同时,降低备份、安全等管理成本。


2)提升应用开发效率。应用程序无需考虑大数据的分库分表设计、无需了解底层的数据存储细节,通过服务调用即可获得返回结果。大大避免数据不一致的冲突。由于同样数据无需管理多个副本,在数据发生变更时,无需复制更新,减少数据不一致的冲突。


数据应用实施

完成面向大数据平台的数据血缘关系梳理。重构大数据平台合约、账户资金、持仓、特殊证券场景数据模型,并进行落标实施。完成两融客户资产负债实时统计推送、财务凭证流水实时统计推送、原生Flink作业SQL数仓化改造。


银行机构数据治理建设成果

海量业务数据汇聚,构建金融级数据平台

大数据引擎+流批一体数据采集满足证券公司业务系统的数据汇聚,对线上和线下业务数据进行采集汇聚,提供集中的大数据技术和存储能力,保障实时多样化数据采集、数据存储、数据计算;提供强大的大数据平台基础,满足现在和未来的数据采集、存储和技术需求。

统一数据开发,降低大数据开发门槛

实时开发平台满足证券公司科技部门能统一在一个平台上进行集中开发和对内外各种租户数据加工,提供统一一体化数据开发平台,满足大数据、SQL、图形化各种数据开发加工要求,降低开发工具的复杂度、数据开发成本,快速构建数据仓库。

满足监管报送,实现一体化数据服务

数据服务平台,提供对内的统一数据服务和数据交换,满足金融第三方机构的监管报送要求,证券公司提供标准化的数据报送服务出口,对外能满足第三方监管报送的数据服务方式和数据使用要求。

数据分析场景服务

根据某证券公司应用需求,袋鼠云为其设计了以下三种数据分析场景服务


一是客户办理的两融业务进行信用账户资产负债实时计算:

1)实时获取柜台行情数据,并按照分钟级进行行情聚合。

2)实时获取客户的股票持仓数据,并将客户持仓数据按照状态进行管理并动态更新,同时按照客户持仓股票代码和分钟级行情进行关联实时计算客户总持仓资产。

3)实时获取两融客户合约流数据,根据合约类型分类计算融资负债、融券负债。按照客户融券合约股票代码和分钟级股票行情进行关联,实时动态计算并更新客户融券负债。

4)实时获取客户资金转入数据,并更新客户的总资金资产和可用资金。

5)实时获取客户的融券卖出获得资金以及资金使用情况并动态更新客户资产负债表。并计算持仓集中度、分组持仓市值、高风险证券持仓市值、跌破下限价证券持仓市值等指标。

6)通过多流关联的方式整合持仓、合约、资金转入、融券交易的数据最终输出客户资产负债表。

7)实时获取客户两融授信申请、客户征信申请、客户征信审批等数据,实时监控客户的授信申请额度、授信状态、征信审批状态、审批额度等变化,推送到下游系统。


二是实时获取财务凭证流水:关联辅助核算维表(维表也存在日间变动的可能),根据财务指标计算规则,按照部门、科目维度计算财务指标日间变动数据并推送到下游。


三是原生FLink服务缺少监控,为增强运维监控工作,拟将以下数据迁移到实时平台:

1)当日股基交易量、当日理财交易量

2)当日开户数和开户流水

3)可转债提前赎回提醒

4)中证易签私募回访:生成回访任务提醒、回访任务成功提醒


《数据治理行业实践白皮书》下载地址:https://fs80.cn/380a4b

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szalykfz

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术 qun」,交流最新开源技术信息,qun 号码:30537511,项目地址:https://github.com/DTStack

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
数据采集 数据安全/隐私保护
​ CDGA|电子行业数据治理六大痛点及突围之道
电子行业在数据治理方面面临着诸多痛点。为了突围而出,企业需要针对这些痛点制定有效的解决方案和措施,包括统一数据标准、打破数据孤岛、保障数据安全、制定合理策略、培养及建立高效团队以及引进先进技术等方面。通过这些努力,企业可以不断提升数据治理的能力和水平,为业务发展提供有力支撑。
|
6月前
|
人工智能 安全 数据处理
首次全国数据工作会议召开,数据管理体制建设迈上新台阶
首次全国数据工作会议召开,数据管理体制建设迈上新台阶
80 1
|
数据采集 监控 数据挖掘
如何打造数据治理闭环?以金融行业为例 by彭文华
如何打造数据治理闭环?以金融行业为例 by彭文华
|
6月前
|
存储 SQL 分布式计算
数据治理手稿
数据治理手稿
|
6月前
|
数据采集 监控 搜索推荐
附方法论|数禾科技X瓴羊:3000字干货分享数据资产建设实践
附方法论|数禾科技X瓴羊:3000字干货分享数据资产建设实践
111 0
|
数据采集 人工智能 自然语言处理
基金公司数据治理实践,打造“点线面体”的数据治理体系
在数字经济时代下,数据驱动业务创新发展已经成为企业的主要选择,基金行业机构也在积极推进数字化转型,但机遇与挑战并存。数据要转化为数据要素,需要系统体系化的数据能力建设作为催化剂。 基金行业也表现出一定的痛点,其中表现为数据安全保护不够到位,缺少数据脉络,数据质量得不到保障等。同时由于行业内在进行系统建设时,对数据管理工作的重要性认识不足以及长年累月杂乱数据的堆积,导致数据治理工作推进艰难,致使在营销端、分析端、监管报送端长期存在客户重复,资产异常等情况。 在公司“十四五”数字化发展规划的指导下,基金公司坚持统筹推进、聚焦痛点,强化数据能力建设,在完善数据治理体系、搭建大数据技术、提升数据服务能
381 0
|
安全 数据安全/隐私保护
带你读《数据安全流通方案(瓴羊隐私计算白皮书)》——4.医院
带你读《数据安全流通方案(瓴羊隐私计算白皮书)》——4.医院
144 0
|
存储 数据采集 人工智能
数据治理,你需要知道的六件事
什么样的技术可以被认为是最有前途和最有商业价值的呢,人工智能、物联网和大数据?
数据治理,你需要知道的六件事
|
存储 数据采集 传感器
关于数据治理需要知道的六件事
许多组织希望在整个企业中共享数据集,但如何迈出第一步可能很困难。这些挑战包括从纯技术问题(如数据格式和API)到组织文化(管理者拒绝共享他们认为自己拥有的数据)。
关于数据治理需要知道的六件事
|
数据采集 存储 监控
谈谈医疗行业数据治理的四个关键阶段【后附医院数据治理案例】
数据是推动医疗行业的改进,驾驭不断变化的医疗行业环境的必要资源。它使医疗行业组织能够评估医疗的提供和支持方式、患者参与和教育的方式,以及支付者和提供者如何共同努力提高价值。
谈谈医疗行业数据治理的四个关键阶段【后附医院数据治理案例】