大数据热潮的分析与审视

简介:

一、大数据的历史溯源

大数据热潮方兴未艾,但若要探究何谓大数据的问题以及大数据现象何以如此兴盛的原因,我们的眼光就不仅仅只停留在它时下的具体表征上,还要对产生它的理论根源做深入分析。大数据,冠之大于数据也。从造词法的角度看,它必然与数和数据有关。因此,如果要将大数据的历史脉络梳理清晰,可以以数和数据为线索。


1. 大数据,首先是源于数的概念

数作为人类认知自然世界的载体和产物,贯穿于人类历史发展的各个阶段。从古希腊唯物主义哲学家阿那克西曼德开始使用“本原”一词,到泰勒斯提出“万物源于水”,人类逐渐摒弃玄异,开始借助经验观察和理性解释看待世间万物,这种理性思维的萌芽为数的产生提供了前提。毕达哥拉斯学派所持“数即万物”的思想,以及创立基于数的自然哲学,实际上是把数看作了世界万物的本源。之后形成的柏拉图主义、唯名论等,也将数提升到本体论的高度。同样地,中国古代文明中诸如道家学派“道生一,一生二,二生三,三生万物”,《易经》中关于天地“天一、地二、天三、地四”,《论语》中关于为人处世“益者三友、损者三友”,这些将数字赋予意义的说法,譬如,“一”与宇宙本源,“二”与阴阳论,“三六九”与等级衡量,虽然带有一定神秘主义色彩,但足以见得数对古人世界观的巨大影响。可以说,数在人类了解自然世界、理解客观存在的过程中扮演了极其重要的角色,数的出现为人类提供了理性和正确认知世界的方法论雏形,也是数据与大数据的演化开端。



2. 大数据,更是源于数据的概念

相比古代文明对于数的认知模糊而虚幻,随着自然哲学的发展,特别是将数据融入科学研究范式的定量研究方法出现后,人们将客观事物用数据表征和分析,逐渐发现了量变质变规律,使万物源于数的本体思想开始变得清晰和具体。例如,物理学家伽利略在天文学上做的定量观测,可为航海者测算精度;化学家拉瓦锡基于定量分析提出的物质不灭原理;生物学家孟德尔根据实验数据推导出的遗传定律等。这些实例充分说明,以科学数据为媒介的定量描述正是奠定现代科学研究的基础。



二十世纪五十年代以来,随着电子计算机的诞生,人类社会步入信息化时代,“把现象转变为可制表分析量化形式的过程”〔4〕104,即数据化成为这个时期的重要标志。进入二十一世纪,人们将过去积累的大量观测数据、理论仿真数据当作研究对象,通过探究其内在统计规律,挖掘数据潜在价值,形成了崭新的数据科学,其在与其他领域相互交融的过程中,催生了一批新的研究方向,如生物信息学、计算社会学等交叉学科应运而生。大数据正是在这个背景下被推出的新兴概念,关于它的定义,目前学术界关于这个问题只形成了几种典型概念,但尚未达成共识。其中比较有代表性的“5V”理论指出,“大数据是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集,具有规模性(Volume)、多样性(Variety)、高速性(Velocity)、精确性(Veracity)和价值性(Value)这五大特点”。无论在哪种定义下,大数据的概念都是源于技术层面而远远超越技术层面的,即先从技术角度解释数据与大数据的区别,再谈大数据的特点及带来的变革。后者往往包含其带给人类生活物质世界的巨大影响,以及带来的一场以数据化思维探究事物之间的关联性而非因果性、舍精确性而求复杂性的思维革命。



3. 大数据诞生:自然哲学演化的必然结果

从唯物辩证法基本范畴角度来看,如果说大数据是信息科学与商业价值邂逅而产生的偶然结果,那么其背后蕴含的世界观、生活方式、思维方式的转变,在人类社会发展历程中出现却是必然的。首先,数作为理性思维的工具替代超自然论是人类认知世界方法进步的必然结果。古希腊自然哲学的理性之光,尽管还有些微弱,但从根本上照亮了一条指引后世的正确道路,把人类从愚昧和玄异中解放出来。继而,数据成为定量精确的描述语言是自然科学研究发展的必然结果。“从科学技术发展历史来看,科学数据之所以成为重要的研究手段,源于其精确性、一致性和易交流性的特征”〔2〕39。最后,随着历史数据的累积与信息科学的不断发展,人们开始寻找一种分析和利用大量数据的新方法,大数据的最终出现有着历史的必然性。



二、大数据热潮的成因探究

从数到数据,再从数据到大数据,大数据概念的形成可以在自然哲学演化的历史长河中找到根基。时至今日,虽然科学界对大数据还尚未形成广泛认同的统一认识,但其掀起的热潮却迅速蔓延于人类生活的物质世界,更在主观世界引起了思维革命。然而,从科学史的角度来看,很多对后世产生深远影响的科学研究成果,往往经历了十几年甚至几十年的发展和演化。以量子力学为例,从二十世纪初普朗克提出黑体辐射定律开始,到狄拉克提出量子电动力学的原型为止,其初步建立历时近三十年,为其做出贡献的不乏AlbertEinsteinErwinSchrodinger等伟大的物理学家,且至今仍有建立在这些基础之上的科学研究,譬如量子计算和量子控制。大数据作为新兴概念面世未久却有如此之大的影响,是哪些因素所引致?



1. 信息科学为大数据热潮拉开帷幕

大数据源于信息科学,它的热潮序幕正是在近十年来信息科学迅猛发展的背景下拉开的。首先是作为支撑技术与基础平台的云计算,其在海量数据存储、分析与管理等方面提供的技术支撑〔5〕152,为大数据的存在提供了科学前提。二是源于一批大数据处理工具的诞生,使得人们开始利用数据挖掘知识。美国《连线》杂志主编安德森就曾指出,“60年前计算机使得信息可读,20年前因特网使得信息可达,10年前搜索引擎将互联网变成一个数据库;如今,像谷歌这样的公司仿佛正在一个巨型的人类社会实验室里处理有史以来最多的数据”〔6〕。这段话说明,大数据产生的源头在信息科学,正是后者近些年来的蓬勃发展为大数据热潮打下了基础。



2. 新方法论构成大数据热潮的表现形式

大数据诞生于信息科学的摇篮之中,而由它所引发的一系列革命却远远超越信息科学的范畴。例如,在谈到其对科学研究方法的影响时,有院士认为“大数据引起了人们对科学研究方法论的重新审视,同时正在引发科学研究思维与方法的一场革命”〔7〕649。一言以蔽之,大数据之所以能使人眼前一亮,关键在于它引起的方法论变革,可以主要归纳为两个方面。



一是从因果性到相关性。科学向来与因果有着不解之缘,从古希腊哲学家亚里士多德的“四因说”,到现代信息论的因果观;从解析宏观物体运动规律的经典力学,到揭示微观粒子运动规律的量子力学,科学技术就是为世间万物寻找因和果的方法论。然而,大数据引发思维革命的强劲之处,正在于其不再把小数据时代白箱的因果关系奉为金科玉律,而把关注焦点置于获得黑箱输入输出的相关关系。这种变革产生的原因是,与小数据时代数据精确且结构单一不同,大数据的多源异构、冗余稀疏性质,使得要理清所有事物的因果关系几乎成为不可能事件。当人们退而求其次地选择黑箱时,发现了一种新的观察世界的方法。“相关关系很有用,不仅仅是因为它能为我们提供新视角,而且提供的视角都很清晰;而一旦把因果关系考虑进来,这些视角就有可能被蒙蔽”〔4〕88。通过先进处理技术探索海量数据之间的关系,可以构筑一个更清晰更透明的世界,这是大数据带来的第一个方法论变革。



二是从精确性到复杂性。对于小数据而言,最重要的是标准统一与精确绝对;而大数据是一门集复杂性、多样性为一体的方法论。这就如同中药与西药在认知论上有所区别,最终导致了治疗方法论的差异。前者扎根于中国古代哲学思想,基于宏观经验,强调整体与混杂,形成了以辨证论治为治疗特点的中医理论体系〔8〕3。后者基于亚里士多德的生物哲学,讲究定量与精确,逐渐形成了生物医学体系。事实上,大数据更提倡融合这两种模式的优势,即以定量的数据化思维为蓝本,加以多样性与复杂性,带领人们进入一片尚未涉足的领域。“相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相”〔4〕46,阐述的就是这个道理,这是大数据带来的第二个方法论变革。



此外,“通过让数据发声,提出了科学始于数据的知识生产新模式,增添了科学发现的逻辑新通道”〔9〕83,这些方面使得大数据被视作一种新的方法论。



3. 社会进步助推大数据形成热潮

科学技术发展是推动人类社会前进的革命性力量特别是最近几个世纪,科学技术发展为社会带来的变革与进展给人们留下了非常深刻的印象。始于十九世纪后半叶的第二次工业革命,带来了电力的大规模应用,使电灯、电话走进日常生活。二十世纪中叶以来,以电子计算机、原子能、合成材料技术的应用为代表的第三次工业革命,促进了各个领域的现代化建设。2014年,工业强国德国正式推出“工业4.0”概念,这被认为是未来十年至二十年内将要发生的第四次工业革命,旨在“提升制造业的智能化水平,建立具有适应性、资源效率及人因工程学的智慧工厂,在商业流程及价值流程中整合客户及商业伙伴”〔10〕。大数据将于其中发挥十分重要的作用,就如同大脑是人类智慧和意识产生的基础一样,大数据认知论和方法论将是未来工业革命的智慧源泉。尽管大数据还面世未久,但却很快应用于各个领域,直接推动了社会进步。在宏观经济方面,IBM公司从互联网中搜索影响制造业的480项经济数据,建立了经济指标预测系统;在医疗卫生领域,据麦肯锡公司估计,“如果把大数据用于美国的医疗保健,将产生年均三千亿美元的潜在价值”;在公共安全领域,利用媒体和通讯数据,可以实现实时的舆情发掘和犯罪预测〔11〕48。以上例证只是一些缩影,在这些典型案例的背后,还存在着诸多大数据广泛应用的事例。由此可见,大数据对社会进步有着巨大的推动作用,后者是前者的根本目的。



马克思曾指出,“人类奋斗所争取的一切,都同他们的利益有关”〔12〕82科学技术是第一生产力,大数据作为科学技术的产物,提供了一种新的认知世界的方法。它使决策更加科学化、市场更加透明化,同时带来新产品新产业,其创造价值财富、推动社会进步的成效显著。因此可以说,正是因为在价值创造与社会进步方面为大多数人谋求了广泛的利益,使得政产学研等社会各界都对其有所推动,大数据才最终形成了一股热潮。


以上全面系统地归纳了大数据诞生并形成热潮的原因,即信息科学是质料、新方法论是形式、政产学研是动力、社会进步是目的,恰好集成了古希腊自然哲学家亚里士多德的“四因说”思想。



三、对大数据热潮的再审视

2012年是世界公认的大数据元年,自那以后,大数据的概念仿佛一匹健壮的黑马,以一日千里之势迅速占据了学术界、产业界的思想阵地,甚至政府层面也逐渐将其视作战略资源。以上归纳出了大数据热潮的形成原因,即回答了为什么大数据能够如此蒸蒸日上、热火朝天地流行和发展起来的问题。那么,大数据如火如荼的背后究竟还有什么值得我们思考?


根据高德纳咨询公司关于技术演变路线的理论,“新兴技术往往要经过萌芽期、膨胀期、低谷期和爬升期,才能进入实质生产的稳定期;大数据时下正处在期望膨胀的高峰期,预计还需要五至十年才会达到稳定期”〔13〕。时下,当大数据已经成为一股席卷各个领域的热潮,当人人都热衷于提起大数据,甚至抛出“大数据万能论”的观点,但对它的概念、技术和应用都不求甚解时,我们对其赋予的魅力和价值理性与相对合理的范围比起来,显然是有过之而无不及了。如此过度地热炒,将不利于人们全面客观地认识大数据,反而会加速概念泡沫的形成。相反地,如果我们能做到在冷静透视热潮成因的基础上,缕清大数据现象和本质,既利用其优点与长处,也反思其不足与局限,大数据才能进入真正的稳定期,进而才能永久地为人类造福。因此,站在唯物辩证法的角度对大数据热潮作重新审视,是有必要也是有价值的。



1. 反思:数据本体论与应用局限

关于数的本体论思想,即“一切事物的性质都可以被归结为数的规定,数的规定性比物理属性更加普遍”〔14〕15,从古希腊毕达哥拉斯学派将数视为万物本原开始绵延千年,对后世有着很大影响。作为数的延伸,数据在现代科学中也被用于诠释宇宙万物的本原,比如以恒定数据表示的物理常数,似乎自然规律就是数据。继承了这种思想,大数据也被人解读为“万物源于数”本体思想的回归〔1〕120,即数据不再是用于表征客观世界的方式,而变成了世界的本体。这种观点其实就是在说,“大数据使得万物皆可被数据化,世界就是一个数据化的世界,世界的本质就是数据”〔15〕


诚然,数据化可以让很多事物变得既清晰又精确。但是,数据真的可以囊括一切吗?即使它的确能囊括一切,真的就应该让它囊括一切吗?这个问题若从自然科学的角度回答,予以肯定尚显合情合理,但如果说人类的精神世界也要被数据化才能被更好地开垦,恐怕多数人不会同意。以书法审美哲学为例,所谓雄浑大气、劲峭险绝的风格特征,所谓阴阳平衡、刚柔相济的文化内涵,都是与人类主观世界相符的精神境界与艺术追求,都是人的感受与客观规律的统一。即便数据化可以让书法作品被更方便地拓印和传播,但终究不能替代情理交融、知行合一的审美情趣,更难以囊括广袤无垠的人类精神世界。



2. 反思:数据之客观性与确定性

大数据是以数据为基础的方法论,只有建立在数据是正确的基础上,大数据方法才有可能产出有价值的结论。然而,数的概念毕竟是人类思维的产物,“数据的客观性仍然受到人类主观因素的影响,这一特性从数的产生就一直存在;数据是事物客观性和人类主观性的纽带,也是人类认识世界的桥梁”〔2〕39。从这个意义上讲,数据非但不是客观世界的本体,而且其客观性还要受人类主观意志左右。所以,人们基于大数据挖掘出的知识,其客观性并不是毫无疑问的。譬如,社会学研究常用的调查研究方法,虽然在大规模量化分析方面很有优势,但由于个体主观可能存在偏差,有些甚至出于利益目的伪造数据,由此带来的是数据本身客观性的缺失,进而使它的上层建筑,即通过大数据分析产出结果的客观性遭到质疑。



关于数据的另一个重要命题是它的确定性。量子力学中的海森堡不确定性原理表明,微观粒子的位置与动量、能量与时间等物理量在同时测量时具有不确定性。事实上,“客观世界中的绝大部分现象都是不确定的,所谓确定的、规则的现象,只会在一定的前提和特定的边界条件下发生,只会在局部或者较短的时间内存在”〔16〕1584。故而,不仅人类的主观认知会让数据“出问题”,客观世界中的现象所具有的不确定性,也使测量数据在表征客观世界时总存在误差。所以,要想通过大数据得到尽可能正确的结果,数据的客观性与确定性问题仍是热潮下亟待冷静面对和解决的问题。



3. 反思:“双刃”效应背后的伦理问题

所谓科学技术是把“双刃剑”,是源于人的利益问题。其中,科学旨在揭示客观世界的真理和普遍规律,更多贯彻的是真理性,还谈不上“双刃”效应;而“技术是否为双刃剑取决于使用者,不当使用会导致不良结果”〔17〕107,这是因为技术属于实践范畴,往往夹杂着利益追求,更多贯彻的是价值性,因此有可能带来负面效应。大数据是科学技术的产物,是真理性和价值性的统一,一方面可以被用来生产新产品、创造新产业,为多数人带来财富。另一方面,“求利的本性使得技术成为人们谋取物质利益的物质手段;因为人的利益问题,技术应用往往会带来负面效应”〔18〕36,即便是作为新兴技术的大数据也不例外。随着2013年美国“棱镜门”事件的发酵,面对无处不在的信息采集源头和强大的分析挖掘能力,上至国家安全威胁与社会数字鸿沟,下至个人的数字身份与隐私泄露,大数据带来的伦理问题〔19〕38-44着实令人忧虑。十八届三中全会设立的国家安全委员会,已经把信息安全提升到国家战略层面。就“大数据本身机遇与挑战并存”〔11〕49而言,必须存在这样一条准绳:既存有法律的强制规范与伦理道德的软性约束,也留有供其施展本领的广阔空间,以促进价值创造和社会变革。如此,人们才可以寻找机遇与挑战之间的最佳平衡点,开辟一条多谋福祉、少些伤害的道路,把握好大数据这把“双刃剑”。



4. 结论:“赋魅”与“祛魅”的平衡

在大数据热潮的背景下,很多关于它的命题都被人的价值理性过度放大了。譬如在学术界,仿佛一夜间便迅速占据了信息科学的研究前沿,只有与大数据有关才是顺势而为。在商业界,大数据价值连城,拥有它就等于拥有商机和财富。2014年初,广东省更是率先成立了我国首个地方政府的大数据管理机构。当这股热潮已经蔓延于社会的各个角落时,在人们的有限感知和理解中,大数据被赋予了万能的魅力。但与此同时,多数人对于这个被天生“赋魅”的新兴名词不求甚解,甚至对其概念、技术和应用都一无所知,只是盲目地依附于潮流。这种偏离合理范围的“赋魅”,将不利于人们站在辩证的角度全面看待事物。反之,如果让大数据无限制地“祛魅”,将使得工具理性走向极端。人们将在看清数据本体论与其应用局限、数据准确性与客观性这些问题的基础之上,进一步朝着功利化和实用化的目标迈进。照此发展,技术的“双刃”效应将显露无疑,大数据也将沦为人们追逐利益的利器。


由此可见,过度地“赋魅”与无限制地“祛魅”,都不是应对大数据热潮的正确选择。唯有“把工具理性和价值理性相结合,即让‘祛魅’和‘赋魅’有机结合起来”〔20〕61:一方面,要把握大数据“双刃剑”,发挥优势功能,降低负面效应,以更好地为人类造福;另一方面,也要全面客观地重新审视大数据的方方面面,时常反思其问题和局限。


四、结语

自问世之日起,大数据不仅改变了人类生活的物质世界,更在主观世界引发了思维革命。以古希腊时期“万物源于数”的本体论思想为开端,以定量刻画的数据思维为基础,大数据的诞生是自然哲学演化的必然结果。近些年来,作为质料因的信息科学、作为形式因的新方法论、作为动力因的政产学研、作为目的因的社会进步,共同构成了大数据热潮的主要成因。面对如火如荼的大数据,我们应该冷静透视热潮背后的本质,以全面客观的辩证视角重新审视数据本体论及其应用局限、数据的准确性和客观性等问题。我们对大数据的“赋魅”与“祛魅”要有机结合,既不能以过分的价值理性阻碍正确认知,又不能以极端的工具理性追逐利益。


此外,源于技术本身追逐利益的性质,应用大数据可能带来一些负面效应,这是难以避免的。但大数据终究将是科学技术甚至是人类社会发展的历史进程中出现的奇妙一笔,作为发现者的我们,理应以辩证视角审视大数据热潮中的种种机遇与挑战,更好地为人类谋求福祉。


原文发布时间为:2015-10-03

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
40 0
|
1月前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
2月前
|
供应链
代采系统如何利用大数据分析优化采购决策?
代采系统可以利用大数据分析来优化采购决策
|
2月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
2月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
2月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
2月前
|
存储 分布式计算 算法
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
29 0
|
3天前
|
数据可视化 大数据 Python
python大数据分析处理
python大数据分析处理
8 0
|
3天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
9天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。

热门文章

最新文章