数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 在大数据时代,企业首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到数据存储平台里面那么简单,更重要的是对数据进行分类、加工及管理。

     在大数据时代,企业首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到数据存储平台里面那么简单,更重要的是对数据进行分类、加工及管理。不然数据存储平台就如同一个杂乱的储藏室——放东西进去的时候很轻松,等到要找出来用的时候就会浪费大量的时间,甚至可能再也找不到。如今,数据在企业中已经充当了资产的角色,而既然是资产就要被估值。

2c87bc68337ff01aa2259f14073e51b8.png

     从数据角度来说,估值就是通过不同的维度去计量数据的价值。只有基于对数据的分类和对数据价值的不同认识,才能去对数据进行筛选。如果连有多少种数据都不知道的话,那么很难描述数据被收集后到底如何进行筛选,也不知道哪一个数据更有价值,更不知道哪一个数据需要更安全的处理,甚至不知道在它的生命周期中做备份的策略是什么。

     对于数据的认知,完全取决于企业是否拥有认知自己所拥有数据的能力,是否能够筛选出到底什么是企业的核心数据,到底什么数据会被频繁地使用。

     一、数据分类为什么如此重要

     数据作为一种资产,不同的数据作用必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境下甚至价值也不同。

     在大数据时代,每做一件事情都要知道确切的目的是什么。从企业自身的角度考虑,当给数据分类之后,真的就能更容易理解大数据吗?

     “数据”本来就是一个既清晰又模糊的概念。之所以说“清晰”,是因为每个人对数据都有概念,而且每个人每天都会接触到各种各样的数据;而说“模糊”,则是指数据本身包含了各种不同的类型,能够产生完全不一样的价值。

     至于数据到底应该怎么进行分类,则需要视不同的场景而定。就好比“人类”一样,如果拿人类和动植物来做比较,人类整体必然有不同于其他物种的特性,这时,“人类”就是一个非常“清晰”的概念。但是,如果要对“人类”进行更深层次的分析,显然需要对不同类型的“人”进行比较和分析。在很多场合下,可能还要对不同种族和不同年龄层进行分类和分析。

     数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境下甚至会呈现出不同的价值。就好比衡量黄金和铁这两种金属的经济价值,同样重量的黄金其价值必然远胜于铁;但是如果用来做刀剑,那柔软的黄金显然就不是合适的材料;而黄金和铁的合金可能又能够在另一个场合有一定的应用。

     对于数据而言,不同的场景也会产生不同的价值,有些数据可能会变成一个运营指标,能够让管理者更好地对业务进行决策;有些数据可以对未来进行很好的预测,而不同的数据进行有机结合之后又能够对用户做出更好的商品推荐。

     一个好的工匠必然对各种材料的性质及使用方法了如指掌,而一个好的数据从业者则必须要对各个数据的价值和稳定性洞若观火。

ec73eb59835a888ef528ecda5dedfb28.png

     遗憾的是,并不是每个数据从业者都能够很好地对数据进行分类和估值。很多时候,可能只看到了数据的一些应用场景,却不能够更加深入地进行数据的管理和应用。

     当企业将焦点放在一组数据“能产生什么价值”上时,往往会忽略其生产过程,因为很多数据是经历了加工才产生这个价值的,而往往其中整个加工链条的中间数据并未被区分出来。就好像我们在吃一盘西红柿炒鸡蛋,“好吃”是结果,但如果你问西红柿给“好吃”贡献了什么,鸡蛋又贡献了什么,你可能就回答不出来了。

     古语有云:“治大国若烹小鲜。”其实做数据也要有这样的感觉,尤其是在大数据时代,更是要做到精细化。

     在运用数据上,这样一个精密的过程就更加必不可少了。比如说,这次可能运用了一个模型,效果不错,这次用的这组数据效果也不错,那下次是不是还能保证有类似的效果呢?或者说,场景变换了还能保证类似的效果吗?这些都是需要去认真思考的问题。

     二、数据的四大分类

     在观察与分析数据中,要从中间抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。

     在企业里,多数人把关注的焦点放在结果上,忽略了过程,而事实上这些过程其实也蕴含了数据管理的过程和数据分类的过程。有些关键数据必须做好保护,若这几个数据变了,或者被污染了,前面的价值也就无法保证了。有人肯定会问,管理数据是一个过程,能不能分解?能不能区分哪些元素是比较重要的?哪些是有替代品的?哪些是无可取代的?哪些是不可或缺的核心?其实,这些问题就包含数据战略。所以,企业数据管理中不能含糊地应对,要从大量的数据中抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。我们可以从以下四个维度将数据分类。

0cc8989fb163444bbabaa78b7456a326.png      

维度1:以是否可以再生为标准

     按照是否可以再生的标准来看,数据可以分为不可再生数据和可再生数据。

     不可再生数据通常就是最原始的数据,比如用户在访问网站时,浏览记录会追踪用户的行为,如果当时没有被记录下来,就没有其他数据来还原用户的行为了。这个有点像拿着相机拍闪电,抓拍很重要,一旦错过,闪电就不可能再重复刚才那一瞬间的光影了。因此,对于用户日志类等不可再生数据而言,必须要有很完善的保护措施和严格的权限设置。现在,很多系统都有备份多份数据的功能,理想情况应该是,因为磁盘损坏而造成数据丢失的案例应该越来越少。但是,因为系统升级失败和误操作等失误造成的数据丢失在各家公司都屡见不鲜,。

     可再生数据就是通过其他数据可以生成的数据,原则上,指标类数据的衍生数据都是可再生的——只要原始的不可再生数据还在,就可以通过重新运算来获得。不过千万不能因为“可再生”这个词语的存在,就对可再生数据掉以轻心。有些可再生数据是通过很长时间的积累不断加工而成的,是长时间从海量数据中计算出来的,比如对某个用户在数个月内的连续购买行为产生的规律,如果未做保护,虽然仍然可再生,但是再生的时间却会给企业带来问题。因为即便对于有顶尖计算能力的公司来讲,都可能是数日,甚至是数周、数月,而这个时间过程可能就会对公司的某一项核心业务造成毁灭性的打击

     对不可再生数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。举个例子,很多电子商务网站是不关注客户在商品详情页面有没有做滚屏操作的。如果这一类型的数据没有被记录下来,企业就无从知道详情页的有效性。当商品页面进行改版,需要对此类数据进行参考时,就没有办法来获得相应的数据支持,最后能做的就只能是等待在页面上进行布点开发,等待数据收集到之后再进行决策,这就造成了决策的延误。对可再生数据而言,要及早做好业务的预判和数据处理的规划,这样一来,数据在需要的时候就能够快速地获得应用,我们把这一数据叫作数据中间层。

     维度2:以数据所处的存储层次为标准

     按照数据所处的存储层次来看,数据可以分为基础层、中间层和应用层。基础层通常与原始数据基本一致,也就是仅仅存储最基本的数据,不做汇总,以尽量避免失真,从而用作其他数据研究的基础;中间层是基于基础层加工的数据,通常也被认为是数据仓库层,这些数据会根据不同的业务需求,按照不同的主体来进行存放;应用层则是针对具体数据问题的应用,比如作为解决具体问题的数据分析和数据挖掘的应用层的数据。

     在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。尤其是对于一些拥有海量数据的集团企业而言,数据的冗余问题尤为严重,由此造成了大量的浪费。在大型集团中,进行数据分析、开发、挖掘的人可能有数十甚至是数百人,这些人可能归属于不同的业务团队,为了满足不同的业务各自分析数据应用。这样一来,不同的人可能都从头开始建立起了一套包含基础层、中间层和应用层的数据,而彼此之间又没有协同的交流方式,也就造成了工作的浪费。那是不是应该把所有的数据进行更好的归纳或者管理呢?这也不是绝对的。任何管理方法,无论是集中式管理,还是分散式管理,都各有利弊,而且人和业务多了之后,企业也很难进行集中式管理

     企业需要注意的是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。而对于中间层和应用层而言,则要视具体情况而定。如果公司的业务相对单一且成本压力比较大,则建议集中式管理;如果公司的业务量非常大,则可以由多个数据团队来进行分散式管理和应用,以保证基础层单位有最高的灵活性。

     维度3:以数据业务归属为标准

     按照数据业务归属来看,数据可以分为不同的数据主体。按照业务归属分类的意思就是,将数据按照不同的业务主体分门别类地进行归纳。就好像仓库一样,将不同的物料进行分类存放,可以提高其使用和管理的效率。按照业务归属分类的数据在不同公司体现出不同的内容,在平台型电商可以分为交易类数据、会员类数据、日志类数据等。交易类数据是指平台型电商的订单流水,其中包含了买家、卖家在什么时间成交了什么商品;会员类数据记录了买家、卖家的身份信息,比如注册时间、身份证号码、信用等级等信息;日志类数据则更多的是指用户的行为,即哪个用户在什么时间段访问了平台的什么页面、点击了什么按钮等。

     对于数据的分类主体,则要根据业务特点进行归类,总体的原则就是让数据的存储空间更少,分析及挖掘的过程更简单、快捷

     维度4:以是否为隐私为标准

     按照是否为隐私来区分,数据可以分为隐私数据和非隐私数据。

     隐私数据就是需要有严格的保密措施来保护的数据,否则会对用户的隐私造成威胁。用户的交易记录属于隐私类数据,对于一家有着良好数据管理机制的公司而言,通常的管理方法是对数据的隐私级别进行分层,数据从安全的角度可以进行两种类型、四个层次的数据分层两种类型就是企业级别和用户级别。企业级别的数据,包括交易额、利润、成交额等;个人级别的数据包括身份证号码、密码、用户名、手机号等。四个层次是对数据进行分类,分别有公开数据、内部数据、 保密数据、机密数据

963cb50dd8c3e050d4f7cfa71907a226.jpg      随着拥有大量数据的企业越来越多,数据安全就越来越成为核心问题——需要投入专门的人和专门的团队来进行数据安全的管理。而数据安全工作的推动,初期往往会受到一线员工的反对,因为任何一个安全系统都意味着已有的权限被收回,也会因为改变工作方法而降低效率。所以,拥有大数据的企业高管必须要关注数据安全,避免给用户和公司造成重大损失。

     三、数据的五大价值

     能够辨别关系、身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原客户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

e728769733450644dfa8154a7dbf9b86.jpg

     如果说数据分类的目的是为了对其有更好的认知和管理的话,那么,对不同数据价值的认知就是让数据更好地被应用的前提。对于数据来说,如果仅是将数据收集起来不进行运用,那除了占用存储空间、加大存储成本之外没有任何价值。在实际运用中,需要认清数据到底能够产生什么价值:有时候,同一组数据可能会在不同场合产生完全不一样的价值;有时候,单一的数据没有什么特别的价值,需要组合起来才能产生价值

     数据价值1:识别价值

     识别的价值,就是唯一能够锁定目标的数据。最有价值的比如身份证、信用卡,还有E-mail、手机号码等,这些都是识别和串联价值很高的数据。电商网站识别“你”的方法就是你的登录账号。千万不要小看这个账号,如果没有这个账号,网站就只能知道有一些商品被用户浏览了,但是却无法知道是被哪个用户浏览了,更不可能还原出用户的购买行为。

在运营数据的时候,经常观察到这样的数据,有时候能够直接识别,有时候需要间接识别。电话号码、生日这些都是非常重要的数据,因此,把自己的生日放在社交网络上,是非常不妥的做法。所以,千万不要小看识别数据的价值,经验告诉我们,能够辨别关系和身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原用户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

     数据价值2:描述价值

     比如搜索T恤,搜索的是什么品牌、材质、尺码等类似的数据,而这些都是描述数据,可以用来刻画研究对象研究对象可以是商品,可以是企业,可以是用户,而反过来,描述数据也可以帮助我们更好地理解研究对象。

在通常情况下,描述数据是以一种标签的形式存在的,它们是通过初步加工的一些数据,这也是数据从业者在日常生活中做的最为基础的工作。公司的营业收入、利润、净资产等数据都是描述性的数据。在电商平台类企业日常经营的状况下,描述业务的数据就包括成交额、成交用户数、网站的流量、网站详情页的流量、成交的卖家数等,我们就可以通过数据对业务的描述来观察交易活动是否正常。

     对企业来说,数据的描述价值与业务目标的实现并不呈正比关系,也就是说,描述数据不是越多越好,而是应该收集和业务紧密相关的数据。描述数据对具体的业务人员来说,能够使其更好地了解业务发展的状况,让他们对日常业务有更加清楚的认知;对于管理层来说,经常关注业务数据也能够让他对企业发展有更好的了解,以作出明智的决策。

     描述数据最典型的方式就是分析数据的框架。在复杂的数据中抽象出核心的点,让使用者能够在极短的时间里看到经营状况,同样,又能够让使用者看到更多他想看的细节数据。

     数据价值3:时间价值

     在考虑了时间的维度之后,数据会产生更大的价值。对于时间的分析,在数据分析中是一个非常重要,但往往也比较有难度的部分。我们可以通过以下两个案例来做更好的分析。

     第一个案例是电商A首页的焦点图,是一个关于茶叶的广告,但这个广告并不是对每一个人都显示,对我显示的原因是我之前在电商A上买过茶叶。这个数据的价值就是广告系统通过对我历史数据的判断,将我识别成一个可能会买茶叶的人,并通过广告系统的内在竞价机制,将这一款茶叶推荐给了我。

     第二个案例是关于一个类目的演进路线,其中存在一些很有意思的现象。比如烘焙用品会有一个明显的演进路线,黄油、模具、芝士、包装盒等用品会随着烘焙产品周边产品的演进而不断呈现出新的需求。这就是在大数据的基础上,基于用户的时间来对产品的演进进行分析,以让消费者更加快捷地找到所需要的商品。

     大数据一个非常重要的作用就是,它能够基于大量历史数据进行分析,而时间则是代表历史的一个必然维度。数据的时间价值是大数据运用最直接的体现,通过对时间的分析,能够很好地归纳出一个用户对于一种场景的偏好。而知道了用户的偏好,企业对用户做出的商品推荐也就能够更加精准。

     时间价值除了体现历史的数据之外,还有一个价值是“即时”——互联网广告领域的实时竞价(RTB,Real Time Bidding),它是基于即时的一种运用。实时竞价就是当用户进入某一个场景之后,各家需求方平台(DSP,Demand Site Platform)就会来进行竞价,对用户现实场景进行数据推送。比如,用户正在浏览一个和化妆品有关的页面或者正在商场逛街,在这个场景中就会出现和化妆品有关的信息。这个化妆品的广告不是预先设置好的,而是在这个具体的场景中通过实时竞价出现的。

     数据价值4:预测价值

     数据的预测价值分成两种。

     第一种是对于某一个单品进行预测。比如在电子商务中,凡是能够产生数据,能够用于推荐的,就都会产生预测价值。比如,推荐系统推荐了一款T恤,它有多大的可能性被点击,这就是预测价值。预测价值本身没有什么价值,它只是在估计这个商品是有价值的,所以预测数据可以让你对未来可能出现的情况做好准备。推荐系统估计今天会有10个用户来买这件T恤,这就是预测。再问一个追加问题:“你有多大的信心今天能卖出10件T恤?”你说有98%的可能性,那么这就是对未来的预判及准确度的预估。

     预测价值的第二种价值就是数据对于经营状况的预测,即对公司的整体经营进行预测,并能够用预测的结论指导公司的经营策略。

在今天的电商中,移动端是一个重要的部门,对于新的移动业务来说,核心指标之一就是每天的活跃用户数,而且这个指标也是对移动团队进行考核的重要依据。作为移动团队的负责人,到底怎么判断现在的经营状况和目标之间存在着多大的差距呢?这就需要对数据进行预测。通过预测,将活跃用户分成新增和留存两个指标,进而分析对目标的贡献度分别是多少,并分别对两个指标制定出相应的产品策略,然后分解目标,进行日常监控。这种类型的数据能够对公司整体的经营策略产生非常大的影响。

81f644dd5de9e3a1b8ad5cc199cd6d25.jpg

    数据价值5:产出数据的价值

     从数据的价值来说,很多数据本身并没有特别的含义,但是在几个数据组合在一起或者对部分数据进行整合之后就产生了新的价值。

在电商中,这样的场景很常见。比如,在电子商务开始初期,很多人都关注诚信问题,那么如何才能评价诚信呢?于是就产生了两个衍生指标:一个是好评率,一个是累积好评数。这两个指标,就是目前在电商平台的页面上经常看到的卖家的好评率和星钻级别,用户能够基于此了解这个卖家的历史经营状况和诚信状况。

     但是,仅以这两个指标来对卖家进行评价,会显得略微有些单薄,因为它们无法很精确地衡量出卖家的服务水平。于是,又衍生出更多的指标,比如与描述相符、物流速度等,这些指标最终变成了一个新的指标叫作店铺评分系统(DSR),可以用之来综合评价这个卖家的服务水平。

     当然,某个单一的商品在电商网站上可能会出现几千条评价,而评价中又是用户站在自己的立场描述的,但是推及到某个用户上,每次买一样东西都要阅读几千条评价显然是不太可能的,因此就需要把这些评价进行重新的定位,以产生出新的能够帮助用户做出明智购买决策的数据,这些数据就是关键概念的抽取。

     四、总结

     在认识了数据的分类和明确了数据的价值后,就能更好地识别出哪些是企业想要的核心数据,从而更好地发挥数据的作用。精细的数据分类、严格的数据生产加工过程,才能使企业数据资产发挥更大的价值,从而更好的支持生产、经营、管理、战略的决策。

相关文章
|
4月前
|
存储 供应链 搜索推荐
【深度观点】资源数字化、数字资产化与资产数权化是分布式商业运行的核心要素
分布式商业的运作逻辑是以资源和能力要素为后端,以数字化资源为关键生产要素,以分布式网络(web3.0)为市场资源配置纽带,前端洞察出需求后,资源、资产、人才等能力要素则迅速向解决消费者的需求去倾斜,资源云化,资产数权化,随需而取,随需转移,从而实现供需资源的有效匹配。
【深度观点】资源数字化、数字资产化与资产数权化是分布式商业运行的核心要素
|
存储 监控 计算机视觉
谈谈企业数据价值计量的一个可行方法【航空公司案例】
当有人指出“数据是宝贵的企业资产”时,通常每个人都会点头表示赞同。但没有多少人有实际方法来证明和展示数据的实际价值。
谈谈企业数据价值计量的一个可行方法【航空公司案例】
|
存储 安全 大数据
构建企业数据银行 发挥数据核心价值
数字经济时代的特征就是数据的爆炸式增长。这些信息为企业的经营和管理带来了便利,但如何更好、更合理地管理和使用这些数据发挥更重要的作用,产生更多的智慧是企业重点关注的问题。
构建企业数据银行 发挥数据核心价值
|
数据采集 运维 安全
谈谈如何评估数据资产的价值​
数据是需要管理、部署和评估的业务资产。
谈谈如何评估数据资产的价值​
|
监控 安全 搜索推荐
聚焦业务目标,挖掘产品需求| 学习笔记
快速学习聚焦业务目标,挖掘产品需求
166 0
聚焦业务目标,挖掘产品需求| 学习笔记
|
人工智能 机器人
各类机构均根据RPA的特征及价值给予了不同的定义
各类机构均根据RPA的特征及价值给予了不同的定义
91 0
|
人工智能
RPA软件如何升级电商工作价值?深度分析
工作,通俗点说就是干活儿,一提到是工作,大部分人会说自己不过是一个打工的,领着普通的工资,过着普通的生活,不能很有钱但是至少相对稳定,唯一心理有点委屈的就是同为打工的,为啥有些人赚的钱更多,有些人则干得很累却赚得很少,有人会说,那是别人运气好,选对了行业,这样说也没错,那为什么选对了行业就赚更多的钱?那是因为,别人创造了更高的价值,怎么计算自己工作创造的价值?我这里跟大家介绍一种测算方法。
RPA软件如何升级电商工作价值?深度分析
|
Web App开发 监控 大数据
解析业务数据的特征——《企业大数据实践路线》之三
阿里云MVP戚俊带你分析数据类型,进行大数据实战
2429 0