▌ 数据是黄金还是垃圾?
互联网的出现,特别是移动互联网的飞速发展产生了大量的数据。这些海量数据是公司开展业务的宝贵财富。经常有人说:“数据是未来的石油”,“数据是未来的钞票”,“数据是未来的黄金”。如果数据真的那么有价值,那么无限增加数据就会带来无限的价值,公司光靠不断积累数据就能成为世界上最有价值的公司。事实上,今天庞大的数据存储量已经为各公司带来了沉重的技术和财务负担,那么数据到底是黄金还是垃圾呢?
▌ 数据的价值
对大多数公司而言,挖掘数据所产生的价值对业务影响极大。例如,各种商业活动会在交易平台上产生不同的交易数据,这些数据经过清洗、过滤、整理和分析可以提供给商户,完成客户服务、精准营销、风险评估等各种工作,为公司带来价值,因此,从这个角度来说,数据的价值如同黄金一般珍贵。
▌ 数据的成本
存储数据是需要成本的,数据的成本绝非只有物理存储空间成本那么简单,实际上它包括了下述五种成本要素:
- 物理存储器
各种专用或通用的数据存储设备或者分布式存储设备
- 人员和软件
为了有效地管理存储而必须配备的人员与软件所投入的资金和努力
- 电力和空间
为确保存储系统能正常运行所需要的电力和IDC机房空间的投入
- 遍历的时间
为了检索数据而不得不遍历存储空间所耗费的时间
- 灾备的成本
为了保证数据安全而进行数据备份所需要的各类资源,数据的成本 = 物理存储器 + 人员和软件 + 电力和空间 + 遍历的时间 + 灾备的成本。
▌ 数据的成本价值困局
数据对企业的价值并非相同。在许多企业中,时间会减低我们可以从任何特定数据元素中所获得的价值。例如,很多旧数据对建立交易模型用处不大。某个客户与电子商务平台交互的旧记录可能有用,但其价值远不如最新的数据。电话公司几年前的详细通话记录没有最新的通话记录对用户的价值大。三年前的银行交易记录不如最近几个星期的有用。人们可能会偶尔看一下老照片和老视频,但是经常看的还是最近上传的新照片和新视频。虽然我们不能说所有的旧数据都没有新数据价值大,但在大多数的情况下,新数据更有价值是一个事实。
上面的表达方法叫RFM图,R代表数据的产生时间(Recent), F代表数据的使用频率,M代表以货币表达的数据价值(Monetary)。从上面的RFM图可以看出,越是最近产生,越是经常使用的数据其货币价值越高(右后上方的顶点)。相反,产生很久,而且不常使用的数据几乎没有什么货币价值。
如果数据的价值随着时间的推移而降低,那么为什么我们还要保存那么多的数据呢? 我们把这个问题叫作数据的成本价值困局。大多数公司并没有对数据价值随时间的推移逐渐降低和维持高速增长的数据成本这些事实引起高度注重。通常情况下,更新、更快存储技术的出现使我们能够以更低的初始成本来存储相同数量的数据,或者用相同的成本来存储更多的数据。随着单位存储成本的下降,我们要保存更多数据的愿望也逐渐膨胀。在高速增长的公司,除了要考虑数据的价值很可能会随着时间的推移而降低的事实之外,我们还要考虑虽然单位存储成本下降,但保存数据的总成本极有可能增加的事实。如何对此做出合理的决策对大多数企业提出了独特的新挑战。
▌ 成本与价值匹配的策略
如果法律或法规要求你保留历史数据,比如电子邮件或财务交易记录,那么别无选择,只能遵守法律。在其它情况下,你可以对数据的价值和保存它的成本进行评估。
MBA课程往往花费大量时间去讨论什么样的客户是非赢利性客户。所谓的非赢利性客户是指那些为了维持这些客户,所花费的成本超过从其本身所能获得的利润。利润也包括由于这些客户的引见而带来的业务所产生的利益。在理想情况下,最好不要保持非赢利性客户或停止继续为他们提供服务。筛选非赢利性客户的概念同样也适用于筛选数据。在大多数情况下,经过足够的调查分析,你很有可能会发现什么数据能增加收益,什么数据会降低收益。就像某些客户不能给企业带来利润一样,某些数据能带给我们的价值远低于用于维护它们所花费的成本。
每种选择方案都有一定的价值。准确的价值则取决于最终所选择的方案能够带来的利益。数据选项的价值有限度,为了给这个价值一个界限,我们应该开始回答下述五个问题:
- 我们过去经常依靠数据做出有价值的决定吗?
- 在那个决定中,我们使用多久以前的数据?
- 该数据最终创造的价值是多少?
- 维护这些旧数据的成本是多少?
- 平衡成本,最终的结果我们赢利吗?