《时代周刊》:用形象化的老办法对付大数据

简介:

威廉-普莱费尔(William Playfair)生于1759年在家里排行老四父亲是上进的苏格兰大臣。他年纪轻轻便当上瓦特的个人助理随后从事制图、会计、工程、经济、银匠、土地投机、记者等多种职业取得大小不等的成功。最终他在贫困中去世。

不过在此过程中他差不多是不声不响地一手创立了统计图表学发明了柱状图、线形图和扇形图。1786年他出版《商业和政治地图集》该书以一副英国历史进出口图开场放在今天的话与本刊的排版看上去并不太脱节。用他自己的话说“普莱费尔是将几何原理用于财政事务之第一人”。

他生不逢时。如果他活在当今时代普莱费尔很可能身居硅谷一家受热捧创业公司的首席数据官高位。我们周围的世界发生着看不见但影响巨大的转变即从信息稀缺到信息过剩的无声颠覆。人类进化首先面临的是食物短缺如今我们却遭受着普遍肥胖之苦。

与之大同小异的是过去我们获得信息很困难现在到处都是海量的信息。谷歌前CEO斯密特曾经估计人类每两天所创造的数据量就相当于有史以来到2003年的数据量总和。他说这话是在五年前。我们从认识上还未进化到这一步。

估计人类创造的总数据量是技术人员的一大爱好。确切数字虽然各不相同但谁都承认大得惊人。只需想想你的智能手机就够了没错它是一个通讯设备但它也是把你周围的世界转化为数据的工具。你看到某个东西把它拍下来或者录下来然后上传到云端以字节的方式永远存在。每一天人们发布五亿条推文在Instagram分享7000万张照片在Facebook观看40亿条视频。每一分钟我们向YouTube上传300小时的新内容。

创造数据的不仅是人。还有被称为物联网的新现象。汽车、自动售货机、眼镜、计步器等装上传感器和传输器与云端或彼此之间通讯。这些物体也像人类一样在数字世界留下痕迹。市场研究机构IDC在2014年的报告中估计数字世界的规模将从2013年的10万亿吉字节增长到2020年的44万亿或44泽字节。

我们拥有丰富的数据但从中获得的回报却迅速减少因为拥有的数据越多就越难从中挖掘出意义。颇具讽刺意味的是信息过多差不多也像信息不足一样难以分析和理解。于是新技术让我们的世界充斥着越来越多的复杂信息我们最终就越需要有着悠久历史的人类努力即始终致力于使复杂的东西可以理解、从混乱中求得意义的艺术尤其是视觉艺术。

正如普莱费尔所发现的那样超过某一界限挖掘数据意义的最佳办法就是使数据形象化。试想Instagram的海量照片。去年纽约市立大学教授曼努维奇(Lev Manovich)对来自纽约、圣保罗、柏林、曼谷、莫斯科5座城市的12万张照片进行了视觉分析。他和他的研究团队从中选取自拍照片估计照片上的人的年龄和性别。然后他们对照片运用面部分析算法对所有数据进行统计分析最后放到selfiecity.net制成互动图表。

结果这些毫无意义的原始数据现在具有了意义。你可以按照城市、性别、心情、是否歪脑袋、是否戴眼镜、睁开还是闭上眼睛浏览照片。你可以提出问题并得到答案谁自拍用的多男人还是女人(答案是女人)。哪里的人笑得最多(曼谷)哪里的老年人爱自拍(纽约)……

如果你把数据形象化看作我们抵抗信息海洋的防洪堤那么随着数据日益增多防洪堤的压力总是不断上升而压力上升又改变了数据形象化的方式和作用这一点甚至普莱费尔也不曾料到。

形象化从对统计数据集的分析呈现发展为实时数据的不断变化图景。在Bostonography你可以像上帝一样鸟瞰波士顿所有按照当前时速进行颜色编码的公交车位置。Crimemapping.com实时显示按照报案地点分类的案发地情况用不同表情符号代表不同性质的案件。fbomb.co网站提供上推特的人何时何地如何说国骂的全球实时图景。

从“纽约出租生命中的一天”(NYC Taxis: A Day in the Life)可以得见美观、免费的数据丰富性。一位名叫Chris Whong的黑客根据《信息自由法》从出租车与电召车委员会(TLC)下载50G纽约市出租车数据利用这些数据制作了2013年某一天任意出租车的路线和收入图。你可以选择一辆车快进(或以正常速度——如果你有时间)观看它在曼哈顿大街上行驶像勤劳的小精灵吃豆子那样在身后留下一条蓝线。

数据形象化并非总是为了闹着玩。今年4月30日在Kickstarter发布的一个众筹项目将从OpenSecrets.org抓去竞选资金数据并以多种方式自动图像化清楚、简洁地显示政治家获得的资金数量和来源。这是超越透明性的下一个必要步骤不仅公布信息而且要公布该信息的意义。今年数据图像化最引人注目、最具革命性的实验之一是纪录片制作人、数据专家霍洛兰(Neil)的“二战死难者”(The Fallen of World War II)互动视频。该实验利用图表图像讲述历史表示成千上万死难者的几乎独家的抽象数据形象化地带领我们回顾二战和“大屠杀”。

视频六分钟左右镜头急剧仰拍现出摩天大楼似的柱状图表示前苏联军队870万人的伤亡。初一看似乎极不可能但随着镜头回摇在二战的巨大灾难中又合情合理。在这种不动声色的叙述中人类的死亡更显触目惊心。

之后的视频同样摄影手法反复出现冷冰冰的抽象数据变为视觉艺术让我们感同身受增加知识。现阶段人类遭遇普莱费尔也发现无法理解的海量数据。我们也觉得数据多得无法理解而这些数据又可能使得我们的世界不可理解。不过我们并非毫无办法。信息不仅需要自由它还需要看得见摸得着。

本文转自d1net转载

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
3月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
4月前
|
存储 SQL 大数据
dataCompare大数据对比之异源数据对比
dataCompare大数据对比之异源数据对比
110 0
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
12天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
15 3
|
15天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。

热门文章

最新文章