描述大千万物的信息,也可以被整齐的平铺吗?我们太习惯于用平面表结构去组织、存储和处理信息。当我们面对一张机票,会把航班起飞降落时间,地点,班次,机型等等一系列预定义好的信息作为一个个字段,平铺到一张整齐的表格里,字段们会因为业务而越变越多,表格也越来越臃肿而稀疏,但是,始终不会有空余的字段去记录我们因为航班延误而暴躁的情绪。
我们已经习惯用僵化的横竖线条去划分这个纷繁复杂的世界,没办法塞进表格的都抛弃掉,或者留个索引扔到另一个大垃圾堆里(mass storage). 我们更愿意花精力去思考如何处理这个不断长大的大表,切割它,买更大的机器存放计算它,于是我们成长为高薪的DBA。我们也乐于改变表的格式去组织数据,或是在表与表之间跳来跳去,于是我们成长为同样高薪的OCP。
但今天我们还是面对了太多棘手的问题,发现关系型数据库竟然最不能表达的就是关系。运营商要根据通话记录计算朋友圈,一张表描述了我有五百个朋友。那么朋友的朋友呢?循环嵌套的平面表结构造成了大量数据冗余,2度,3度以上的关系结构很难表达计算,更别说传播关系,强弱程度了。
我们有必要重新思考,如何利用新的方式组织表达信息了。历史在重演,其实这样的思维转变,在2500年前就已经发生过,就是代数和几何的关系。
古希腊的毕达哥拉斯学派,认为数字能够表达一切,长度重量,高度,温度,个数,序数,万物皆数,一切都可以被计算。所有的数都可以写下来,可以密密麻麻的挤在一个数轴上表达。直到有一天,一个叫希帕索斯的孩子,他发现如果一个直角三角形两边都是1,那么它的斜边,无法用有理数来表达,那么这个数,怎么可能挤上那个密密麻麻的数轴呢。这个聪明的孩子最终被忠实的信徒们推下海淹死了,但是用几何图形表达的无理数所引发的数学危机,却推动了古希腊的数学基础转向几何,以几何为基础使数学的公理化成为可能。
现代文明不允许有下一个被淹死的希帕索斯,大数据的今天允许我们使用更新颖的方式组织处理数据,行为关系、语义、视觉。躺在平面表里的数据人要站起来,从SQL语法里跳出来,我们来到了矩阵和向量的空间。
行为关系,我们可以用矩阵表达,N*N*N的矩阵计算非常适合计算机分布处理,自然语言可以用向量计算,文章中数万个词汇如同一根根长在刺猬身上不同方向的刺,需要理解Dior在文章中描述的是性感还是优雅?只需要计算一下这两个词汇向量的余弦距离。
世界不再是平的,大数据让我们用新的方式去存储、组织和计算信息。
回到我们曾经在数据库中苦恼的关系计算,我们可以在图传播中轻易知道谁是真正的意见领袖,是坐拥千万粉丝数量的影视明星,还是被不断转发扩散的活跃草根。
这样的大量一度传播却没有在二度传播中形成圈落的图计算结果,也能帮助我们定位快递员,从而进一步找到频繁网购的人群,这一切只需要计算我们的电话记录,而不用借助淘宝或京东的数据库。
Google在互联网世界利用链入链出关系评估网页质量,我们也可以使用电话记录中的呼入呼出关系数据,用矩阵计算我们的关系,评估出"人脉"。在中国,你的成功不取决于你拥有什么,而是你认识谁。在抵押转向信用的互联网金融时代,可度量的社会资本必然是新的数据金矿,而能够挖掘这一金矿的人才,已经从Oracle时代的DBA,转向大数据的Data Scientist.
当我们用矩阵、用向量重新建立大数据公理,我们发现还使用Hadoop去优化SQL的行为多么的无趣,有纷繁的人类行为数据可以服务于新金融的风险与信用;有海量的交通行为数据等待着去动态规划,建设智慧城市;有无数生产线上的传感器数据等待着逻辑回归建立生产的最佳实践,实现制造业的产业升级;以Hadoop分布式计算和机器学习所代表的大数据,无异于让数学家发现了无理数。真正的大数据人已经不再沉迷于扁平的DB表世界里,新的空间已经打开,知识和创新在新参照系里,蕴育着大爆发。
原文发布时间为:2013-07-26
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号