1.2 大数据与小数据
本书书名(Big Data, Little Data, No Data)受到普赖斯的观点和学术界各领域关注保护和控制智力资源的启发。数据是学术研究的输入、输出和资产,其无处不在,但也经常稍纵即逝。由于某些被当作数据的现象本身就是学术行为,因此,“何为数据”这一问题往往可以诠释为“数据产生”问题(Borgman 2007,2012a; Bowker et al. 2010;Star and Bowker 2002)。
《牛津英语词典》对数据有如下的名词性定义:(1)一条信息,一份资料,一组数据;(2)公认的、通过科学工作获得的以及可供引用、分析或计算的相关信息(多为数值型信息);(3)公认由计算机执行相关运算的数值、字符或符号,以及非技术环境下的数字化信息。这些定义很狭隘,它们相互依赖,但尚未抓住学术中数据的丰富性和多样性特点,未揭示其认识论和本体论前提。第2章将阐明数据的概念。
数据特征与社会技术发展趋势相结合,将进一步加强人们对学术数据的用途、价值及挑战的认识。
1.2.1 大
德里克·德索拉·普赖斯(1963)认为大小科学之间的重要差别是量的不同,他提出大科学由组成学术社区的无形学院控制,他们私下进行数据交换,并管理该领域的专业活动(Crane 1970;Furner 2003b;Lievrouw 2010)。小科学则以较小规模运作,即社区较小、研究问题和方法的一致性较低以及基础设施较少。科学实验和所有学术形式均因普赖斯的观点而发生了很大变化。他是第一批现代科学史学家之一,其思想受到二战后科研事业发展的巨大影响(Furner 2003a,2003b)。1981年,普赖斯去世时,今天常见的分布式、数据密集型以及计算密集型研究活动几乎还没有诞生。但他提出的大小科学在量上具有重要区别这一观点,在大数据时代依旧正确。
大小数据只是近似类比于大小科学。普赖斯认为大小科学的区别不仅在于项目规模大小,还在于相应科学事业的发展成熟度。现代科学,也就是普赖斯所讲的大科学,具有国际化和协同攻关的特征,且由相互了解并通过正式和非正式渠道相互交流的无形学院研究人员构成。小科学具有300年历史,以独立和较小规模的工作方式发展解决研究问题的理论和方法。小科学在英文中有两种表达,即Little Science和Small Science,其具有方法多样性、数据异构性以及本地控制和分析的特征(Borgman, Wallis,and Enyedy 2007;Cragin et al. 2010;Taper and Lele 2004)。正如普赖斯所言,小科学研究领域也可能发展为大科学,不过大多数将依旧保持小科学的特征。
由于“大”的具体定义有很多种,所以大小数据的界限并不清晰。2013年,《牛津英语词典》将大数据纳入其中,即“大规模数据,特别是数据规模导致数据操纵和管理过程出现明显的逻辑挑战;或者是某个计算分支已达到上述规模。”大数据的其他定义关注相对规模,而非绝对大小。考虑到企业和政府应用,迈耶·舍恩伯格和库克(2013)认为,大数据指在大范围内获取,无法在较小范围得到满足。在学术界,大数据指那些以前所未有的规模或范围使用数据进行的研究(Meyer and Schroeder 2014;Schroeder 2014)。
数据是大是小取决于数据的用途、可揭示何种观点以及所感兴趣现象(如消费者购买行为或毒品发现)的分析规模。早期的大数据定义仍具有借鉴意义,即大量、多样、高速或这些特征的组合(Laney 2001)。三个维度中任何一个大幅增加都可能带来研究和学术规模的变化。
数据无处不在也是大数据产生的重要原因之一。随着日常生活中的信息技术越来越多,人类行为也更容易捕获。就在20年前,远程通信接入还是通过家庭拥有电话线的比例进行测算。而现在,几乎每个人都有多个通信设备,且每个通信设备都有唯一标识符。随着移动通信技术的指数级增长,发展中国家的数字信息传输也十分普遍。这些随处可见的设备要比电话多得多,它们不仅能传感、通信和计算,还可以捕获和分发文本、图像、音频和视频。由时间和地点构成的坐标系可用于刻画行为轨迹,创建连续活动记录。建筑物、车辆和公共场所都配备了相似技术。将所有轨迹结合起来,可以创建丰富的社会活动模型。数据及其用途的发展速度远远超过隐私法或信息政策的发展速度。
在媒体炒作和学术讨论背景下,数据相关概念不断兴起。这一现象反映了数据源和现在可用的庞大数字数据无处不在。据预测,科学、医学、商业及其他领域的数据已经达到临界规模。商业用语中有个“临界点”(tipping point)的概念,即某一种理念已经超越流行阈值,并得以快速传播。商业中的大数据就已经达到其临界点(Gladwell 2002)。除此之外,各行各业的数字数据也更易产生、挖掘和分配。
提出新问题、顺应新趋势、捕获从前无法捕获的现象等能力已经成就了新行业,一个与学术问题时而兼容、时而矛盾的行业。
1.2.2 开放性
软件模型、政府、标准、出版物、数据、服务和知识协同生产都已趋于开放,这种趋势改变了各领域利益相关者之间的关系(Benkler 2007;Hess and Ostrom 2007a;Kelty 2008;Raymond 2001)。数据开放旨在促进信息流动,提高系统服务耦合度及其协同工作能力。但数据开放需要经济和社会成本,“自由软件运动”就是经典案例。理查德·斯托曼(Richard Stallman 2002)认为,数据开放不同于免费啤酒,而更像言论自由。
受20世纪70年代电子出版物开放实践的影响,出版物开放获取开始的标志是2002年的《布达佩斯宣言》(Budapest Open Access Initiative 2002;Naylor and Geller 1995)。开放获取数据很早就有了,例如,成立于20世纪50年代的世界数据中心旨在对1957~1958年国际地球物理年上通过观测程序采集的数据进行归档和分配(Korsmo 2010;Shapley and Hart 1982)。1966年,国际科学理事会成立了国际科技数据委员会(CODATA),以促进数据管理方和使用方之间的合作(Lide and Wood 2012)。2007年,经济合作与发展组织编写了公共基金资助的研究类数据获取原则(Organisation for Economic Cooperation and Development 2007)。获取研究类数据的政策报告不断增加(Arzberger et al. 2004;National Research Council 1997;Esanu and Uhlir 2004;Mathae and Uhlir 2012;Pienta,Alter,and Lyle 2010;Wood et al. 2010)。第3章将详细描述开放获取出版物和开放数据。
开放获取是信息资源商品化发展趋势带来的结果。虽然这种趋势深受知识产权与信息经济政策影响,但临界量的满足已经产生了新市场。病历、消费者购买行为、社交媒体、信息检索、学术出版和基因组学等领域都能通过聚集大量数据以建立并促进市场发展。其中,部分数据完全在企业部门内进行交换,但许多数据也会跨越领域或在商业利益相关者之间交换。学术研究产生的数据可能具有商业价值,而商业过程产生的数据又可进一步服务于学术发展,由此产生了新型合作关系与紧张关系(Lessig 2004;Mayer-Schonberger and Cukier 2013;Schiller 2007;Weinberger 2012)。
伴随数据商品化而来的开放获取数据会推动研究政策的变革。当今政府、资助机构和学术期刊都鼓励或要求学者公开其数据(Finch 2012;National Science Foundation 2010b;National Institutes of Health 2003;Research Councils UK 2012a)。开放获取出版物和数据正加速各领域的学术交流,并导致了利益相关者之间的紧张关系。
信息流动在很大程度上依赖技术基础设施的发展。无线或有线通信网络的容量和渗透能力不断增强,用于支持信息、工具和服务供需关系的技术投资依旧不减。但技术投资不会直接推动信息交换发展。而且无论在企业、政党还是学术领域,技术基础设施都是黑客攻击的目标。隐私、机密、匿名和知识产权控制目前都处在关键期。移动数据、学术数据和其他数据以网络为中心,在安全、权利、保护、互用和政策之间形成了微妙平衡。
1.2.3 长尾
“长尾”是研究领域或经济部门中用于表示数据可用性与用途的经典方式。该词最早源于克里斯·安德森(Chris Anderson 2004),他在《连线》杂志中对比实体店与网店商品所占市场份额时提出如图1-1所示的著名统计分布,即指数分布定律。在安德森模型中,约15%的市场份额位于曲线头部,其余85%则沿曲线尾部分布。该模型在学术研究领域对应的含义是,少量科研团队使用大量数据展开工作,一些团队用非常少量的数据工作,大多数科研团队则处在这两种情况之间。曲线最右边表示大量学者用最少量数据进行研究工作(Foster et al. 2013)。
长尾是表示特定领域或团队使用数据量的有效方法。其在诸如自然科学中的天文学、物理学和基因组学,社会科学中的宏观经济学,数字人文学科的某些领域,以及涉及大数据量的研究领域内依旧发挥着重要作用。总之,数据在各研究领域之间的分布并不均匀。
长尾隐喻的不足之处在于,其将任何领域或个体的数据实践划分为两个维度。除了数据处理量之外,学术活动也会受其他很多因素影响。一般而言,研究问题是选择方法和数据的驱动力,但反之亦可能正确。可用数据也会推动新问题的产生和新方法的应用。数据选择也依赖于研究人员本身及研究过程中其他资源的选择,具体包括理论、专业知识、实验室、设备、技术和社会网络、研究地点、研究人员以及其他资金投资形式。
一般而言,学术界描述数据分布的长尾中,少数学者使用的数据位于曲线头部,这部分数据虽然量特别大,但种类非常少。产生大量数据的大科学领域唯有使用通用仪器(如望远镜、DNA测序仪)和一致格式(如数据元、数据库结构),才能保证数据结构和内容的同质性。数据结构标准化能促进基础设施、工具和服务的共享。相反,具体研究领域的数据往往更靠近尾部,小科学和小学术领域的实践越多,数据内容、结构和表现越具有多样性。包括独立工作团队或小团队在内的小学术(small scholarship)研究人员可以更好地将已有研究方法、数据资料、仪器以及分析方法等用于解决现有问题。而不用像大学术(big scholarship)领域研究者那样,必须借助空间望远镜、线性碰撞机或大规模数字课题进行数据处理。由于共享设施基础标准的缺失和发展维持共享数据资源的临界量难以满足,因此灵活性成为大数据研究面临的又一挑战。
今天,大多数科学学术工作都由研究经费较少的个人或小团队研究人员完成(Heidorn 2008)。但也有部分科研团队融合了人员众多、分布广泛的国际性大团队,他们可以产生或分析大数据,并通过社区知识库进行数据交换(National Science Board 2005;Olson,Zimmerman,and Bos 2008)。相对而言,个体或独立科研团队研究人员往往进行探索性、局部性、多样性以及社区资源共享程度低的学术研究。