世界是平的,真的是吗?

简介:

描述大千万物的信息,也可以被整齐的平铺吗?我们太习惯于用平面表结构去组织、存储和处理信息。当我们面对一张机票,会把航班起飞降落时间,地点,班次,机型等等一系列预定义好的信息作为一个个字段,平铺到一张整齐的表格里,字段们会因为业务而越变越多,表格也越来越臃肿而稀疏,但是,始终不会有空余的字段去记录我们因为航班延误而暴躁的情绪。

我们已经习惯用僵化的横竖线条去划分这个纷繁复杂的世界,没办法塞进表格的都抛弃掉,或者留个索引扔到另一个大垃圾堆里(mass storage). 我们更愿意花精力去思考如何处理这个不断长大的大表,切割它,买更大的机器存放计算它,于是我们成长为高薪的DBA。我们也乐于改变表的格式去组织数据,或是在表与表之间跳来跳去,于是我们成长为同样高薪的OCP。

但今天我们还是面对了太多棘手的问题,发现关系型数据库竟然最不能表达的就是关系。运营商要根据通话记录计算朋友圈,一张表描述了我有五百个朋友。那么朋友的朋友呢?循环嵌套的平面表结构造成了大量数据冗余,2度,3度以上的关系结构很难表达计算,更别说传播关系,强弱程度了。

我们有必要重新思考,如何利用新的方式组织表达信息了。历史在重演,其实这样的思维转变,在2500年前就已经发生过,就是代数和几何的关系。

古希腊的毕达哥拉斯学派,认为数字能够表达一切,长度重量,高度,温度,个数,序数,万物皆数,一切都可以被计算。所有的数都可以写下来,可以密密麻麻的挤在一个数轴上表达。直到有一天,一个叫希帕索斯的孩子,他发现如果一个直角三角形两边都是1,那么它的斜边,无法用有理数来表达,那么这个数,怎么可能挤上那个密密麻麻的数轴呢。这个聪明的孩子最终被忠实的信徒们推下海淹死了,但是用几何图形表达的无理数所引发的数学危机,却推动了古希腊的数学基础转向几何,以几何为基础使数学的公理化成为可能。

现代文明不允许有下一个被淹死的希帕索斯,大数据的今天允许我们使用更新颖的方式组织处理数据,行为关系、语义、视觉。躺在平面表里的数据人要站起来,从SQL语法里跳出来,我们来到了矩阵和向量的空间。

行为关系,我们可以用矩阵表达,N*N*N的矩阵计算非常适合计算机分布处理,自然语言可以用向量计算,文章中数万个词汇如同一根根长在刺猬身上不同方向的刺,需要理解Dior在文章中描述的是性感还是优雅?只需要计算一下这两个词汇向量的余弦距离。

世界不再是平的,大数据让我们用新的方式去存储、组织和计算信息。

回到我们曾经在数据库中苦恼的关系计算,我们可以在图传播中轻易知道谁是真正的意见领袖,是坐拥千万粉丝数量的影视明星,还是被不断转发扩散的活跃草根。

这样的大量一度传播却没有在二度传播中形成圈落的图计算结果,也能帮助我们定位快递员,从而进一步找到频繁网购的人群,这一切只需要计算我们的电话记录,而不用借助淘宝或京东的数据库。

Google在互联网世界利用链入链出关系评估网页质量,我们也可以使用电话记录中的呼入呼出关系数据,用矩阵计算我们的关系,评估出"人脉"。在中国,你的成功不取决于你拥有什么,而是你认识谁。在抵押转向信用的互联网金融时代,可度量的社会资本必然是新的数据金矿,而能够挖掘这一金矿的人才,已经从Oracle时代的DBA,转向大数据的Data Scientist.

当我们用矩阵、用向量重新建立大数据公理,我们发现还使用Hadoop去优化SQL的行为多么的无趣,有纷繁的人类行为数据可以服务于新金融的风险与信用;有海量的交通行为数据等待着去动态规划,建设智慧城市;有无数生产线上的传感器数据等待着逻辑回归建立生产的最佳实践,实现制造业的产业升级;以Hadoop分布式计算和机器学习所代表的大数据,无异于让数学家发现了无理数。真正的大数据人已经不再沉迷于扁平的DB表世界里,新的空间已经打开,知识和创新在新参照系里,蕴育着大爆发。


 原文发布时间为:2013-07-26


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
网络虚拟化
以太网链路聚合与交换机堆叠、集群
以太网链路聚合与交换机堆叠、集群
error: static assertion failed: Signal and slot arguments are not compatible.
error: static assertion failed: Signal and slot arguments are not compatible.
error: static assertion failed: Signal and slot arguments are not compatible.
|
关系型数据库 MySQL Java
手把手教你做一个安卓点餐系统
最近有小伙伴要学习安卓,今天给大家展示一个安卓系统的开发,希望能帮到你学习!
806 0
手把手教你做一个安卓点餐系统
|
JSON 数据挖掘 API
ElasticSearch学习笔记(三) Es文档基础操作
在Elasticsearch中,文档是索引的基本单位。一个文档代表了一个JSON对象,它包含了一个或多个字段,每个字段有一个字段名和一个字段值。一个索引可以包含多个文档,每个文档都有一个唯一的ID。
526 2
|
17天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
31141 108
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
7天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4503 1
|
13天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6479 17
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
11天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4539 9
|
14天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5516 19
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手