3.2 面向业务可理解
最近几年大数据实践逐渐转向成熟期,关注点从数据同步、数据开发逐渐转移到数据资产管理和治理。业内因此衍生出了多种数据资产建设管理办法,但当前主流方法,如DAMA数据管理知识体系、数仓建模理论等,都偏向于底层技术实现,而非从上层业务应用角度对资产进行统一管理。
1.需要更具价值的数据资产
数据资产之所以称为资产,是因为它是从价值出发,经整理、管理、优化,对业务真正有帮助、能带来效益的数据资源。那些扔在数据库中、不知道是什么的原始数据项并不是真正意义上的数据资产。即使经过了数据开发者大量的治理工作,数据项如果不是业务上可用想用的,那么也只能称为数据负累。
企业一方面鼓励业务人员要研究数据、数据化运营,但另一方面数据支撑却没有建设充分:业务部门提一个数据需求,往往需要在数据部门排期2~3个月后才能得到数据结果或数据服务响应。业务人员受不了长时间的等待想要自己去查看数据,面对着的又是一串难以理解的英文、数字编码。因为数据库原理、数仓知识最初都是从国外引入的,企业内的数据环境对业务人员非常不友好,业务人员连数据信息都无法理解,更不用说上手直接操作了。
因此企业需要找到一种更具价值的数据资产建设办法。更具价值是指,能让业务用起来,帮助业务人员解决问题。把数据资源封装成业务人员能理解的形态是后续资产价值化的必要前提。标签类目体系方法论通过“标签”这种载体将数据资源转化为业务人员能理解的资产形态。业务人员可以通过标签的定义、逻辑、值字典、常见应用类型、使用效果等维度来全面简单地理解数据资产。例如“性别”这个标签, 逻辑描述不会是“取IDCard字段,先校验是否为18位数字,是则取倒数第二位数字,该数字为奇数则本记录取值为女,为偶数则本记录取值为男”,而应该是“取消费者实名认证时上传的身份证信息。根据身份证号码的倒数第二位数字判断男女”。
业务人员快速理解标签信息后,可以选取所需标签并申请使用,第二天数据服务接口就能提供,第三天业务系统的技术人员就能和自身系统对接联调完毕,第四天这些标签就能被实际使用起来。当然4天时间还是太长了,在工具平台打造得非常顺畅和智能后,业务人员可以在一天内完成标签的申请到使用。在标签使用的过程中,也可以根据实际情况修改、删除原有标签,同样在一天内生效。此时业务部门对数据的使用效率就会非常高,试错成本非常低,最终以较低的成本找到数据价值路径。这样业务部门就有意愿主动完成数据业务化的转型工作,同时以业务的高频使用来试验标签质量,带给数据部门最真实的反馈信息。
2.好数据资产设计办法的特征
1)好的数据资产设计办法是桥接数据和业务的中间逻辑层,让数据变得可阅读、易理解。在这里要注意,这个中间逻辑层不能只有和业务的连接,而忽略与底层数据的映射,毕竟有数据的流通传递数据资产才能真正发挥价值,空有架子外皮没有意义。
2)好的数据资产设计办法是一种统一的对象数据描述办法,应该把个体刻画升级为群体刻画。举例来说,对人的研究必须找到对人群的共性刻画。只要是“人”这个对象,那么就会有性别、年龄等特征,每个个体都可以在特征值维度找到个性刻画,而不是一上来就去研究个体,专注于这个人具体怎么样,那个人具体怎么样,每当有新人出现时,又必须重新刻画,永无止境。
3)好的数据资产设计办法具有第一性原理,通过学习方法论+演绎推导即可构建具体的企业资产,而非经过大量实践后再归纳总结。
标签类目体系方法论可以满足以上3个特征要求,理由如下。
- 第一,标签作为面向业务的数据资产载体,一方面以标签的形态串联业务端的理解和操作,另一方面每一个标签都会与底层数据字段相映射,以实现底层数据的切割、相连、操作等。
- 第二,标签类目体系是一种以对象为基础的数据资产梳理方式,对某一类对象的标签类目体系的构建实际上是完成了对某一类对象的模式设计。对这一概念的详细解释可以查看标签类目体系第一性原理的具体内容。
- 第三,标签类目体系有自己的第一性原理,根据第一性原理,得出具体的方法、标准、实施步骤和模板工具,而不是某一场景中数据信息的简单收集和罗列。
3.数据资产必然走向业务导向
未来能够大规模高效使用数据的不能只有技术人员,还必须有广大的业务人员。谷歌搜索引擎的核心算法并不是基于多么高深的人工智能算法,也不是基于人工维护的绝对准确的网页信息库,而是基于大量普通用户在网页访问、跳转间的行为记录,来推算网页之间的关联关系,进而为广大用户提供高质量的目标网站。在其中发挥最大作用的就是群体智慧,其价值比专业人士的专业整理还要高。同样,到底要打造哪些数据资产,数据资产怎么用,需要发挥业务人员的群体智慧,根据大量的业务行为进行群体决策,这也符合用数据来判断的主旨。
如果重要环节都需要专业人士来整理、把关、判断,专业人士就一定会成为阻碍业务发展的瓶颈。专家资源有限,而优秀业务的发展速度一定会快于专家的培养速度。因此数据资产的建设运营不能完全等待数据专家来判断,需要一种自发流畅的机制来自动化保障数据资产的有效优化。所谓业务导向,并不是说要听业务专家的意见,而是要听业务流程、业务人员、业务数据所表达出来的意见。
真正能够发挥数据价值的地方在业务前线。必须以数据的最终价值来驱动数据的全链路运营过程。真正持久的数据资产建设一定不是从治理出发,干的都是苦活累活但是效果却不显著,业务并不为苦劳埋单,而要从价值倒推,让业务部门通过收获数据红利来反向促动数据部门治理和优化数据,并按需主动提供新的数据源。