作者介绍
感谢孙海亮、赖志明、独孤风、李钊丞、李新乐等五位伙伴对本篇文章提供的思路支持与审核校正,感谢皮皮同学的设计排版,有你们我心里踏实多了!
最近在和机械工业出版社商讨《数据资产管理实践》书籍的编写,在进行大纲与目录确认的过程中,由于自己的水平较低,常会被困在现有思维,像梳理缠绕的线头不知道如何落笔包括:从哪开始、如何进行、核心链路、中心思想、以及如何向读者系统全面的阐明数据资产管理的实践思路,并给与其借鉴启发。
好在和出版社资深编辑孙海亮老师沟通后,海亮老师让我们一定要整理出属于自己的数据资产管理实践方法论,首先说服自己,才能说服读者,才能以当前方法论编撰的书籍向业内传播自己的思想。并给了我们以下建议:
- 通过思维导图,以先增后减的方式,凝练出数据资产管理的核心思路。
- 给定数据资产管理实践模型或架构图,通过自下而上,归类切分的形式凝练数据资产管理核心内容。
- 形成一篇以上述思维导图与架构图为核心的方法论梳理文章,进行小范围发布,进行意见收集和调整。
数据资产管理导图
可在文末添加作者微信,加入PowerData社区获取思维导图源文件,共同探讨数据资产管理相关知识。
基础概念梳理
- 数据:记录事实和数字信息的集合,可以是任何类型的信息,例如文本、图像、音频等。
- 数据资源:存储在组织的各个信息系统、数据平台、数据应用产品中,对组织中各类业务概念或实体对象,以及活动的有效记录。
- 数据资产:由企业或组织拥有或控制的,能够为组织带来经济利益的数据资源。
- 数据管理:收集、存储、保护和使用组织数据的一系列流程。其目的是在整个数据生命周期内交付、控制、保护、输出数据,并因此提升数据的价值。
- 数据资产管理:对企业或组织中的数据资产进行管理和维护的一系列活动和过程,包括进行分类、标识、存储、备份、恢复、保护、共享、清理和销毁等。
- 数据治理:在组织内部制定、实施数据管理策略、规则、流程和标准的过程,确保数据质量、合规性和可信度,以支持组织的决策和业务流程,并确保对敏感和关键数据的保护,实现数据资源的价值最大化。
- 数据中台:一套数据集成、管理、应用的体系。本质目的在于通过一系列的整合与管理,提供可以复用的数据能力,提升企业数据资产化能力,从而更好的为业务提供数据支撑,实现数据驱动的目标。
枯燥的概念真的是看不了一点,那就画个图吧~
数据生命周期流程图
是管理不是治理
经常有同学在PowerData社区提问,资产管理和数据治理到底有什么不同。这时候就会有小伙伴说:文字不同。 真是让人无法反驳啊~
有很多专家从各种角度对数据治理与数据资产管理进行过深入的解读,这里仅从我的视角聊聊他们的区别。
数据治理是数据资产化的必要手段,数据资产管理的开展以数据资产为基础。同时数据治理的过程需要贯穿整个数据生命周期,这其中也包含数据资产管理。并且数据治理与数据资产管理也存在开展手段的重叠例如:元数据、数据血缘、数据质量等,所以这也是这两者经常被混淆的原因之一。
所以简单分析一下它们俩的区别吧:
驱动数据资产管理推进的是效益,过程重组织与协调,作用于数据加工、应用与交易关节,最终目标是资产价值最大化。
驱动数据治理推进的是混乱,过程重政策与执行,作用于数据生产消费全流程环节,最终目标是数据资产化,减少资源浪费,提升流程效率。【好吧就是降本增效...】
目前国内对于数据治理的讨论度较高,主要三个原因吧:
- 门槛低:可能很多人就要反驳我了,数据治理不是需要自上而下、政策驱动吗,为什么还说门槛低呢。那是因为仅从数据开发的角度来说,哪怕你只是对数据进行了 if id !=null 的判断,其实你就已经做了数据治理的工作了。
- 追逐潮流:别人都在治,我不治,是不是不太好。从业这几年,越来越感觉国内的技术理念存在很强的从众效应,实时数仓如此、云原生如此、数据治理也是如此。其中确实有技术理念先进的原因,但是为了数据治理而治理数据的事也时有发生。
- 刚需:来自上游的锅估计每个数据从业者都背过,数据治理是数据部门有效规避数据问题的重要手段。数据规范约定、去重、缺失项删除、格式转换等也都是数据部门的常规工作。数据治理是数据生产消费必不可少的刚需环节,无非是不同公司投入的资源多少而已。
数据治理与数据管理搜索指数对比
为什么图中是数据治理和数据管理呢,因为数据资产管理竟然还没被收录进词条....
但是数据资产管理一定是重点发展的趋势,在数据资产化、数据要素化、数据入表、数据交易、国家数据局等国家顶层制度设计下,数据的价值一定会被逐渐发掘。数据资产管理一定也会随之跟进。
是资产不是数据
数据资产虽说是由数据蜕变而来,但是两者可不能相提并论喔~
数据一旦成为资产,意味着其相比于数据属性本身,又多了一层资产属性,其中数据的属性,我个人理解为元数据信息,详见下文:元数据管理落地实施
数据资产除上述数据属性之外,还具备以下资产属性或价值:
- 可交易性:数据资产可以被买卖、出租或授权使用,类似于传统资产的交易行为。
- 经济价值:数据资产具有经济价值,可以为组织或个人带来利益。
- 价值波动:数据资产的价值易发生变化,且随应用场景、用户数量、使用频率等的变化而变化。
- 产权属性:使用权、加工权、经营权等资产产权。
看了上面的内容可能大家又要模糊了,那啥能称之为数据资产呢,别急咱们往下看。
数据资产划分
问个问题:如何判断当前数据是否能为组织带来经济利益,即是否为数据资产。比如:系统运行日志数据是不是数据资产?
在进行数据资产管理之前,我们总得划分一下哪些是数据资产吧,根据中国资产评估协会发布的《资产评估专家指引第9号——数据资产评估》规定,数据资产包括以下类型:
- 数据库管理系统中的数据库;
- 用于支持业务应用的软件系统中的数据;
- 用于支持业务流程和决策的数据;
- 用于支持研究和开发活动的数据;
- 其他类型的数据资源;
上述是官方给出的划分依据,但是在PowerData讨论过一番,大家好像并不能给出准确的划分标准,因为每个公司的数据管理情况不同,所以我这边简单圈定一个范围:
- 业务数据:数据库管理系统中的数据库、用于支持研究和开发活动的数据。
- 数仓数据/BI报表数据:用于支持业务流程和决策的数据。
- 交易数据:企业用于对外交易的数据,上架到数据交易所的数据。
所以你们认为系统运行日志数据到底是不是数据资产呢?
要不要管
数据资产管理是需要投入较多公司资源开展的一项长期工作,且短期内无法给公司带来实际收益。所以在做数据资产管理之前,我们需要仔细思考几个问题,千万不要为了数据资产管理而去管理数据资产:
- 现在公司的数据生产与使用是否混乱。必要不唯一条件
- 混乱的数据是否导致了开发、生产、运营等效率的低下。必要不唯一条件
- 到底是要做数据资产管理还是要做数据治理,一定要想清楚。非必要唯一条件
- 公司是否有数据能够上架到数据交易所开展交易。必要唯一条件
- 是否有将组织内特定的数据资源视作同软硬件设施、房车等固定资产一样的资产,纳入组织统一的资产范围,共同用于评估确定组织的经济价值,为组织提供融资、信贷、担保支撑的需要。必要不唯一条件
除了上述直接条件外,还有以下间接条件也需要思考:
- 目前数据团队的数据开发工作是否饱和,数据链路(是数据链路而不是数据质量)是否趋于稳定,是否能够投入一定的人力开展数据资产管理工作。
- 公司领导是否认可数据资产管理理念,数据团队是否有信心说服领导投入资源。
- 团队有无数据资产管理经验,是否需要在摸索中前进,是否能够承担试错成本。
数据团队本就是成本团队,数据资产管理收益又存在量化困难与滞后性等问题,所以大家在开展此工作之前一定要考虑清楚~
管什么
数据资产管理,管理对象一眼就能看出来是数据资产。OK,那我们要管理数据资产的哪些内容呢,每个公司针对数据资产管理的目标和方式都不尽相同,没办法做到统一
【这也是为啥数据资产管理产品、数据中台、数据管理平台等无法做到通用化的原因】。
我这边仅针对管理内容,从自我认为的重要程度来做个简单的梳理与排行。
元数据 ☆☆☆☆☆
不管做数据资产管理还是数据治理还是数据管理,元数据都是必要内容。
元数据是实现数据资产全面有效管理和价值最大化的关键因素。
Datahub元数据页面
元数据管理内容详见下篇文章:元数据管理落地实施
数据质量 ☆☆☆☆☆
数据质量是数据资产管理的重要组成部分,它直接影响到数据资产的价值和利用效果。
数据质量平台
数据质量管理内容详见下文:数据质量管理落地实施
资产安全 ☆☆☆☆☆
数据资产的安全和权限管理是保证数据资产管理工作平稳开展的重要支柱。
数据资产不是仅仅是数据,更是资产【通俗点就是钱】,银行对于资金的安全管理懂得都懂,所以我们对于数据资产安全性的重视也需要放在最高等级,可是目前大多数公司的现状还是一个最高数据权限的账户所有人一起用,所以在开展数据资产管理工作的过程中,一定要进行心态的转变,我们要确保的是资产安全,而不仅是数据安全。
数据血缘 ☆☆☆☆
数据血缘记录和展示数据的来源、流向、变换等过程。这种关系的完备程度是衡量数据资产管理程度的重要标准。
数据血缘管理内容详见下文:数据血缘管理落地实施
数据服务 ☆☆☆☆
数据资产是需要为企业带来经济效益的,效益需要通过数据服务进行体现,包括但不限于以下方式:
- 数据接口:通过HTTP接口对外提供数据服务。
- 可视化图表:将数据通过可视化图表进行展现。
- 数据地图:在元数据基础上,通过多层次图形化的数据资产管理工具,将企业内各类数据进行展示,帮助业务人员、管理人员、开发人员更好更快地查找、理解、使用和管理数据。
- 消息队列:将数据发送至消息中间件中,由下游进行统一消费。
- 数据文件:将数据打包成文件直接提供给下游使用者。
OK,既然数据服务是体现经济效益的重要手段,那么我们也需要对其进行管理,包括但不限于:
- 服务管理:包括数据服务的创建、配置、部署、监控、维护和删除等。
- 服务审批:在服务发布前进行审批,以确保服务的质量、安全性和合规性。
- 服务发布:管理对外服务的方式并进行发布。
- 服务监控:对数据服务的运行状态、性能、可用性等进行实时监控,以便及时发现并解决问题。
- 服务安全:保障数据服务的安全性,防止未经授权的访问和使用。
数据模型 ☆☆☆
数据模型通过定义数据的基本结构,包括基础数据的类型、性质以及关系,帮助组织理解和使用数据。主要目标是确保数据的准确性、一致性和完整性,以及其易用性和可扩展性。
但是数据模型这块的内容,在元数据中又有一定程度的体现,所以其在数据资产管理中的重要程度个人认为只能给三颗星。
数据标准 ☆☆☆
数据标准管理是规范数据标准的制定和实施的一系列活动,是数据资产管理的核心活动之一,对于政府和企业提升数据质量、厘清数据构成、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用。
但是呢,但是。单纯的数据标准管理其实在开展元数据录入的时候,就需要同意数据的业务口径标准以及技术口径标准,所以数据标准给三颗星。
数据生命周期 ☆☆☆
数据生命周期管理(Data Life Cycle Management,DLM)是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建和初始存储,到最终过时被删除,即指某个集合的数据从产生或获取到销毁的过程。
OK,概念很高大上,但是数据生命周期涉及到数据的各个流程与几乎所有内容,较为复杂,开展起来也没有头绪,目前数据生命周期更多的是在数据下架与归档的时候提一嘴,其他场景好像并不会过多的去关注。
怎么管
只针对在确定开展数据资产管理工作后,所需要开展的具体内容,至于前期的管理决策、制度制定、人员划分、数据资产化等则属于数据资产管理工作开展的前期准备。以下流程为数据资产管理工作的开展流程
确定管理对象
进行数据资产评估后确定需要管理的数据资产对象。可参考第三章。
确定完成后梳理出一份正式的企业数据资产列表。
确认管理内容与边界
确定需要管理的内容,可参考上一章。并且给出每一个对象所要管理的具体边界例如:
- 元数据:技术元数据的基础信息、存储信息、调度信息等和业务元数据的业务信息、权限信息、服务信息等。
- 数据血缘:字段级别血缘or表级血缘,血缘节点的纳管范围包括:库、表、报表、任务、部门等等。
- 数据质量:唯一值监控、空置监控、数据波动监控、取值范围波动监控等等。
管理内容和边界一定要提前圈定好,数据资产管理本就是繁琐复杂的工作,模糊的管理边界只会拖垮工作效率。
梳理数据资产管理目录
OK,确认好上述内容之后,我们可以先通过表格的形式梳理出一份数据资产管理表格。我这边给出一份大概的表格样式,大家可以参考一下:
数据资产管理目录梳理表格
确定管理方式
思考:可以用数据中台开展数据资产管理工作嘛?
数据资产管理,没有平台是绝对不行的,那么就有一个横在数据资产管理工作开展面前的大难题就是:自建or开源or采购。
这边不评价方式的好坏,仅给出方式的对比大家可以自行选取或组合。
自建
缺点:挺费时费力的,最少最少需要1资产管理咨询顾问+1产品/UI+2后台+1大数据+1前端+1运营/运维才可开展,并且至少需要3个月的时间才能看到雏形。
优点:灵活调整、完全贴合业务需求。
建议:不是大公司且有非常强烈的数据资产管理需求就别玩儿自建了。
开源
Datahub界面
缺点:功能不能保证100%适配需求,还是得二开,二开成本较高。使用成本也较高,因为目前数据资产管理或者数据治理界还没有特别流行的开源工具,所以在遇到使用问题的时候,可能没有办法很快速的解决。
优点:不花钱,上手快。
建议:中小公司进行内部数据资产管理的最佳选择,虽然很多开源工具不能100%符合公司的需求,但是先跑起来再优化。
这边推荐几个开源的数据资产相关的管理工具:Datahub、OpenMetadata、atlas、Metacat、Griffin
采购
缺点:除了花钱没啥大毛病
优点:定制化方案、定制化开发、定制化服务,只要花钱全是优点~
建议:银行、证券、保险、医疗、政企、能源等行业最爱,没钱的话还是用开源吧。
纳管
平台建好之后,我们需要将数据资产进行录入纳管,录入方式主要包括三种
- 自动录入:通过技术手段将技术元数据、血缘、权限等信息进行录入到平台中。
- 手动录入:针对业务信息、数据标准信息以及补充描述等内容,需要手动录入。
- 导入:如果之前通过其他方式例如excel等的数据管理信息,可以导入到平台中。
开管
资产录入之后,就可以通过平台开展数据资产管理工作了,包括数据资产的上架下架、信息调整、权限修改、资产检索、质量告警、异常追踪、资产统计等等。
考核指标
对数据资产管理工作进行考核是确保数据资产得到合理利用、保障数据安全和提升整体业务价值的关键措施。我这边简单整理了一些数据资产管理工作的考核指标,大家可以进行参考。
数据资产率 【错误考核指标】
强调一下,千万不要用公司数据的资产率考核衡量数据资产管理工作。数据资产化是数据资产管理工作开展的基础,不能用儿子来考核爸爸嗷。
资产资产率指标是用来考核数据治理的,切记嗷。
资产利用率
承接上面的内容,数据资产管理的目的不是为了实现数据资产化,而是为了提高资产的利用率。啥意思呢就是通过一系列的管理手段,将现有的数据资产给充分利用起来。
OK,资产利用率如何考核,几个点:
- 数据资产的利用次数:衡量数据资产被使用频繁程度的重要指标,体现了数据的活跃度和价值实现程度。
- 数据资产的使用范围:主要看数据资产在哪些领域、部门或业务中被应用,评估数据资产的通用性和广泛性。
- 数据资产的应用场景:不同的应用场景可能会对数据资产的需求和使用效果有不同的影响,因此,考核数据资产在不同场景中的应用情况也是必要的。
- 数据资产的更新周期:反映了数据的实时性和有效性,是评估数据资产质量的一个重要方面。
纳管覆盖率
当前数据资产纳管的范围占公司整体数据资产的比率。最简单的计算方式就是:平台纳管数据资产数量/公司整体数据资产管理目录
质量问题下降率
质量问题下降率指的是开展数据资产管理之后,质量问题数对比未开展管理工作之前的比率。主要衡量数据资产管理工作在提升数据质量方面的成效。
用户满意度
用户的反馈是评价数据资产管理工作的重要依据。
数据资产管理的收益用户主要有两类:内部用户、商业用户。
- 内部用户:公司内对数据资产以及数据资产管理平台进行使用的人。
- 商业用户:在数据资产交易所购买并使用当前数据资产的人。
用户满意度核心从以下两点评价:
- 平台/数据易用性:用户友好的数据服务界面和易用的数据资产,都可以提高用户使用数据的便利性和效率。
- 技术支持:在出现平台与数据资产使用过程中,需要有完善的文档说明,并且遇到的使用问题需要及时进行技术支持。
在开展数据资产管理工作过程中,通过收集和分析客户的反馈信息,可以了解客户对数据服务的满意程度,以及存在哪些问题和改进的空间。
思考
概念混乱的根源
当提及数据资产管理的时候,你脑海里能够瞬间冒出哪些概念,是不是会有一团密密麻麻的灰色半透明的字体在你的脑海里浮现。哈哈,说实话,我写这篇文章的时候脑子里也是一团乱,然后我仔细思考了一下,为什么关于数据资产管理的概念会这么乱呢,个人总结几个原因哈:
- 涉及内容较多:数据资产管理涉及到数据的各个方面包括:平台、数开、数仓、治理、质量、交易、安全、合规等多个方面。这些领域的知识都相当复杂,因此很难用一个简单的概念来概括。
- 发展速度快:随着国家政策的不断推进:数据要素化、数据资产入表、国家数据局等,数据资产管理的理念和方法也在不断发展和变化。这就导致了关于数据资产管理的概念也在不断更新,使得人们很难把握其全貌。
- 实践性强、千人千面:数据资产管理不仅仅是理论,更多的是实践。不同的企业、不同的行业、不同的业务场景,对数据资产管理的需求和方法都会有所不同。这就需要我们根据具体情况,灵活运用和创新数据资产管理的理论和方法。
- 价值认识不足:目前很多人对数据资产管理的重要性认识不足,认为只要把数据存起来用起来就可以了,没有必要进行复杂的管理。这种观念导致了很多企业在数据资产管理上的投入不足,也就无法深入去推进。
怎么理
详见文章开头的引言,可以尝试自己在纷乱的概念和实践中去总结沉淀,通过思维导图与架构图去梳理自己对于数据资产管理的核心思想。【不局限于数据资产相关概念,在工作中遇到的各类概念问题我们都可以尝试去用此方法梳理】
同时也可以通过阅读此篇文章,帮助形成自己的核心思想,欢迎在底部留言说出你自己的见解进行讨论。
其实不管咋理,最核心的还是要动起来,先看再学后实践最后梳理总结。
2024的祝福
这篇文章是PowerData在2023年的最后一篇文章,马上2024年啦,希望大家在新的一年都能够找到对象、家庭幸福、身体健康、学业有成、事业节节高。
也希望大家都能在PowerData找到志同道合的数据伙伴,分享技术心得,收获技术成长。