世界是平的,真的是吗?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

描述大千万物的信息,也可以被整齐的平铺吗?我们太习惯于用平面表结构去组织、存储和处理信息。当我们面对一张机票,会把航班起飞降落时间,地点,班次,机型等等一系列预定义好的信息作为一个个字段,平铺到一张整齐的表格里,字段们会因为业务而越变越多,表格也越来越臃肿而稀疏,但是,始终不会有空余的字段去记录我们因为航班延误而暴躁的情绪。

我们已经习惯用僵化的横竖线条去划分这个纷繁复杂的世界,没办法塞进表格的都抛弃掉,或者留个索引扔到另一个大垃圾堆里(mass storage). 我们更愿意花精力去思考如何处理这个不断长大的大表,切割它,买更大的机器存放计算它,于是我们成长为高薪的DBA。我们也乐于改变表的格式去组织数据,或是在表与表之间跳来跳去,于是我们成长为同样高薪的OCP。

但今天我们还是面对了太多棘手的问题,发现关系型数据库竟然最不能表达的就是关系。运营商要根据通话记录计算朋友圈,一张表描述了我有五百个朋友。那么朋友的朋友呢?循环嵌套的平面表结构造成了大量数据冗余,2度,3度以上的关系结构很难表达计算,更别说传播关系,强弱程度了。

我们有必要重新思考,如何利用新的方式组织表达信息了。历史在重演,其实这样的思维转变,在2500年前就已经发生过,就是代数和几何的关系。

古希腊的毕达哥拉斯学派,认为数字能够表达一切,长度重量,高度,温度,个数,序数,万物皆数,一切都可以被计算。所有的数都可以写下来,可以密密麻麻的挤在一个数轴上表达。直到有一天,一个叫希帕索斯的孩子,他发现如果一个直角三角形两边都是1,那么它的斜边,无法用有理数来表达,那么这个数,怎么可能挤上那个密密麻麻的数轴呢。这个聪明的孩子最终被忠实的信徒们推下海淹死了,但是用几何图形表达的无理数所引发的数学危机,却推动了古希腊的数学基础转向几何,以几何为基础使数学的公理化成为可能。

现代文明不允许有下一个被淹死的希帕索斯,大数据的今天允许我们使用更新颖的方式组织处理数据,行为关系、语义、视觉。躺在平面表里的数据人要站起来,从SQL语法里跳出来,我们来到了矩阵和向量的空间。

行为关系,我们可以用矩阵表达,N*N*N的矩阵计算非常适合计算机分布处理,自然语言可以用向量计算,文章中数万个词汇如同一根根长在刺猬身上不同方向的刺,需要理解Dior在文章中描述的是性感还是优雅?只需要计算一下这两个词汇向量的余弦距离。

世界不再是平的,大数据让我们用新的方式去存储、组织和计算信息。

回到我们曾经在数据库中苦恼的关系计算,我们可以在图传播中轻易知道谁是真正的意见领袖,是坐拥千万粉丝数量的影视明星,还是被不断转发扩散的活跃草根。

这样的大量一度传播却没有在二度传播中形成圈落的图计算结果,也能帮助我们定位快递员,从而进一步找到频繁网购的人群,这一切只需要计算我们的电话记录,而不用借助淘宝或京东的数据库。

Google在互联网世界利用链入链出关系评估网页质量,我们也可以使用电话记录中的呼入呼出关系数据,用矩阵计算我们的关系,评估出"人脉"。在中国,你的成功不取决于你拥有什么,而是你认识谁。在抵押转向信用的互联网金融时代,可度量的社会资本必然是新的数据金矿,而能够挖掘这一金矿的人才,已经从Oracle时代的DBA,转向大数据的Data Scientist.

当我们用矩阵、用向量重新建立大数据公理,我们发现还使用Hadoop去优化SQL的行为多么的无趣,有纷繁的人类行为数据可以服务于新金融的风险与信用;有海量的交通行为数据等待着去动态规划,建设智慧城市;有无数生产线上的传感器数据等待着逻辑回归建立生产的最佳实践,实现制造业的产业升级;以Hadoop分布式计算和机器学习所代表的大数据,无异于让数学家发现了无理数。真正的大数据人已经不再沉迷于扁平的DB表世界里,新的空间已经打开,知识和创新在新参照系里,蕴育着大爆发。


 原文发布时间为:2013-07-26


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
leetcode-417:太平洋大西洋水流问题
leetcode-417:太平洋大西洋水流问题
38 0
LeetCode——417. 太平洋大西洋水流问题
LeetCode——417. 太平洋大西洋水流问题
145 0
LeetCode——417. 太平洋大西洋水流问题
每日一题—— 太平洋大西洋水流问题
每日一题—— 太平洋大西洋水流问题
115 0
每日一题—— 太平洋大西洋水流问题
LeetCode每日一题——417. 太平洋大西洋水流问题
有一个 m × n 的矩形岛屿,与 太平洋 和 大西洋 相邻。 “太平洋” 处于大陆的左边界和上边界,而 “大西洋” 处于大陆的右边界和下边界。
112 0
LeetCode每日一题——417. 太平洋大西洋水流问题
LeetCode 417. 太平洋大西洋水流问题
LeetCode 417. 太平洋大西洋水流问题
65 0
【LeetCode417】太平洋大西洋水流问题
(1)找出从太平洋出发的水所能到达的点:
129 0
【LeetCode417】太平洋大西洋水流问题
|
算法
LeetCode 0417「太平洋大西洋水流问题」
岛上雨水较多,如果相邻单元格的高度小于或等于当前单元格的高度,雨水可以直接向北、南、东、西流向相邻单元格。水可以从海洋附近的任何单元格流入海洋。
LeetCode 0417「太平洋大西洋水流问题」