背离现实世界,大数据毫无价值

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

经过一代人的时间,“技术天才”与社会的关系发生了改变,他们从宅男变成了救世主,从反社会群体变成了社会的最大希望。许多人似乎确信,当下理解我们世界的最佳方式便是坐在屏幕前,分析海量信息——我们称其为“大数据”。


来看看“谷歌流感趋势”吧。2008年,当它面世时,硅谷的许多人员鼓吹其将成为大数据的另一个里程碑,并且会很快淘汰掉传统分析。


不过,他们错了。


如果硅谷的大数据传教士们真想“了解世界”,那么他们不仅需要掌握数据的量,也要掌握数据的质。


“谷歌流感趋势”不仅没有提供流感传播的精确图表,它也无法实现大数据作为传道者的美梦。没有“厚数据”,大数据就什么也不是。你必须离开电脑,深入到现实世界当中来获取这些丰富且带有情境化的信息。电脑极客们一度因不擅社交而被嘲笑,他们被告知应该“多出去走走”。事实上,如果大数据最主要的拥趸者希望理解这个他们也参与塑造的世界,他们真的需要出去走走。


与修改算法无关

“谷歌流感趋势”试图通过识别人们在流感季可能搜索的词汇来发挥作用。当它追踪的词汇搜索达到高峰时,谷歌会向大家预警新流感的爆发,这大约要比官方数据早两周时间。


对很多人来说,“谷歌流感趋势”成为了大数据之力的代表。在畅销书《大数据:一场改变我们生活、工作和思考的革命》中,作者维克托-迈尔-舍恩柏格和肯尼斯-库克耶称,与政府滞后的数据报告相比,“谷歌流感趋势”是更有用、更及时的流感指示器。为什么即便费心查看数据,人们还是会得病,我们何时才能知道究竟什么与疾病相关?“因果关系”他们写道,“不会被丢弃,不过其立意的根本正受到考验。”


然而,本月发表在《科学》上的一篇文章表明,自2011年八月起,“谷歌流感趋势”几乎每周都会高估流感的流行性。


回溯到2009年,在发布后不久,“谷歌流感趋势”完全没预警到猪流感。这证明人们在流感季搜索的许多词都与流感无关,而与每年这一季相关的词通常都有:冬天。


如今,很容易说(像许多人做过的那样)“谷歌流感趋势”的失败源于大数据的不成熟。不过,这样便错过了问题的关键。当然,调整算法、提高数据收集技术将会让下一代大数据工具变得更有效。然而,大数据真正的狂妄之处不在于我们对一套不成熟的算法和方法过于自信,问题是我们盲目地相信坐在电脑屏幕前,捣鼓一些数字就足以让自己对周围广阔的世界有个了解。


为什么大数据需要“厚数据”

大数据仅仅是在收集人文学科中所谓的”薄数据“,它们由我们的动作和行为路径产生。我们每天最常走的路线,在网上搜索的东西,睡了多久,人与人之间的多种联系,我们所听的音乐类型等等。这些数据来自于你浏览器中的cookies,你腕上的fitbit或是你手机里的GPS。人们的这些行为内容无疑是重要的,但它们并不是全部。


为了真正地了解人,我们也必须了解经验的那部分,即人类学家所指的“厚数据”。它不仅仅捕捉事实。比如说,美国有86%的家庭主妇每周会喝掉6夸脱以上的牛奶,但是她们为什么喝牛奶呢?而且这像什么呢?一块带有星星和条纹的三色布是薄数据,而一面在风中高高飘扬的美国国旗便是厚数据。


在探寻“我们做了什么”的基础上,大数据简单地认识我们;厚数据尝试通过我们如何与所在的不同世界相联系来了解我们。只有了解我们的世界,人们才能从整体上真正认识它,这恰恰也是谷歌、facebook这类的公司想要做的。


用0和1认识世界

想想当下硅谷的那些宏伟宣言,谷歌有名的宗旨是“组织全球信息,使人人皆可访问并从中获益。”最近,马克-扎克伯格跟他的投资人说,在全球性连接变得日趋重要、知识经济不断受到强调的背景下,Facebook带来了一个全新的视角,即”认识世界”。他描述了未来“认识”的样子:“人们每天向graph(Facebook的算法搜索机制)发布数十亿条内容和链接,由此建立各种有待了解事物的最明晰模本。”在这个追求认识的过程中,即便是一些小公司也可以分享信息。去年,捷波朗软件的副总裁耶利米-罗宾逊说道,他们的健康跟踪设备JawboneUP试图“认识行为变化的科学。”


与收集的数据一样,这些目标也非常“大”。毋庸置疑,商业渴望更好地认识社会。毕竟,与客户行为及文化相关的信息不仅是经营的关键;在知识经济时代,它们也逐渐成为一种货币,用来交换点击数、浏览量、广告费,或是更简单直接的——权力。在此过程中,倘若谷歌、facebook这类公司能帮助我们不断地增进对自己的认识,它们便将获得更大的权力。问题是声称电脑终将组织所有数据,或是向我们提供对流感、健康、社交联系或任何其他事情的全面认识,这彻底拉低了数据和认识的意义。


如果硅谷的大数据传教士们真想“了解世界”,那么他们不仅需要掌握数据的量,也要掌握数据的质。不幸的是,要实现后者,人们要将电脑放下,不仅“从谷歌眼镜中看世界”(或是从facebook中、从虚拟现实中),还要去体验真实的世界。这样做有两个重要原因。


要了解人,你就要了解他们所处的情境

如果你对一个领域高度熟悉,薄数据则是最有用的。你有能力填补信息的不足,设想到人们为什么这样做或为什么有这样的反应——当你能想象并重建行为发生的情境时,薄数据便是有意义的。如果不知道情境,想推断出任何因果关系或是了解人们的行为动机则是很难实现的。


这也是为什么在科学实验中,研究人员需要竭尽全力掌控实验室环境的方方面面,以求打造一个人为场所,使各种影响因素都在可计量范围内。不过,真实世界并不是一个实验室。能确保你对陌生情境有所了解的唯一途径即是置身其中地去观察、去内化并阐述正在发生的每一件事。


世上大部分是我们所不知道的隐性知识

如果说大数据擅长测量人们的行为,那么它在认识人们日常事物的隐性知识方面则是失败的。我怎么知道刷牙时该挤多少牙膏?什么时候该并入行车道?眨眼是表示“这东西真有趣”还是”我的眼睛进了东西“?这些都是内化的能力、无意识的行为,一种内隐的认识在控制着我们的行为。跟身边的事物一样,这些不可见的隐性知识只有主动去看,我们才能发现。不过,它们却对每个人的行为方式有着重要影响。它能够解释事物是怎样、以哪种意义与我们联系起来的。


人类及社会科学中有一系列俘获和解释人的方法,他们所处的情境,他们的隐性知识,而且这些都拥有一个特质:它们要求研究者进入杂乱而真实的生活。


没有哪一个工具可以成为认识人类的快捷方式。尽管硅谷有许多出色的发明,不过我们对数字技术的期望还是要有个限度。”谷歌流感趋势“真正教给我们的是:不能仅仅问这个数据有多”大“,还要问问这个数据有多”厚”。


有时,走进真实的生活将会得到更好的效果。有时,我们必须要离开电脑一会儿。


原文发布时间为:2014-07-09

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 机器学习/深度学习 人工智能
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-用RFM模型对客户价值分析(聚类)
1402 0
大数据分析案例-用RFM模型对客户价值分析(聚类)
|
4月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
186 11
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
理解并利用大数据的力量:解锁数据背后的价值
【8月更文挑战第7天】大数据已成为推动社会进步和经济发展的重要力量。通过理解并利用大数据的力量,企业可以解锁数据背后的价值,优化业务流程、提升决策效率和创新能力。然而,大数据应用也面临着诸多挑战和风险,需要企业不断学习和实践以应对。相信在未来的发展中,大数据将为我们带来更多的惊喜和机遇。
|
6月前
|
存储 算法 数据可视化
云上大数据分析平台:解锁数据价值,驱动智能决策新篇章
实时性与流式处理:随着实时数据分析需求的增加,云上大数据分析平台将更加注重实时性和流式处理能力的建设。通过优化计算引擎和存储架构等技术手段,平台将能够实现对数据流的高效处理和分析,为企业提供实时决策支持。通过优化计算引擎和存储架构等技术手段,平台将能够实现对数据流的高效处理和分析,为企业提供实时决策支持。
915 8
|
8月前
|
存储 分布式计算 算法
大数据处理:挖掘价值之道
大数据处理:挖掘价值之道
|
8月前
|
存储 数据可视化 大数据
大数据分析与处理:探索数据的深层价值
大数据分析与处理:探索数据的深层价值
129 2
|
8月前
|
存储 数据采集 机器学习/深度学习
大数据分析:挖掘数据价值的技术和方法
在数字化时代,大数据已经成为企业和科研机构的重要资源之一。然而,对于海量的数据如何进行分析和挖掘却是一个巨大的挑战。本文将介绍大数据分析的基本概念、技术和方法,帮助读者了解如何利用现代技术和工具,挖掘数据中蕴藏的价值。
741 0
|
机器学习/深度学习 人工智能 Cloud Native
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
IDC认为,从提升企业中长期发展质量、降低综合投入成本的角度出发,大数据技术领域将呈现出两个显著趋势:一体化和融合化。企业应以战略和顶层设计为先导,用体系化的思维全面构建大数据能力架构,避免形成新的数据、业务和能力孤岛。 【下载地址见文末】
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
|
SQL 存储 自然语言处理
面向现实世界场景,多语言大数据集PRESTO来了
面向现实世界场景,多语言大数据集PRESTO来了
162 0
|
数据采集 机器学习/深度学习 算法
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
1164 0
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)