《大数据、小数据、无数据:网络世界的数据学术》一 1.2 大数据与小数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第1章,第1.2节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2 大数据与小数据

本书书名(Big Data, Little Data, No Data)受到普赖斯的观点和学术界各领域关注保护和控制智力资源的启发。数据是学术研究的输入、输出和资产,其无处不在,但也经常稍纵即逝。由于某些被当作数据的现象本身就是学术行为,因此,“何为数据”这一问题往往可以诠释为“数据产生”问题(Borgman 2007,2012a; Bowker et al. 2010;Star and Bowker 2002)。
《牛津英语词典》对数据有如下的名词性定义:(1)一条信息,一份资料,一组数据;(2)公认的、通过科学工作获得的以及可供引用、分析或计算的相关信息(多为数值型信息);(3)公认由计算机执行相关运算的数值、字符或符号,以及非技术环境下的数字化信息。这些定义很狭隘,它们相互依赖,但尚未抓住学术中数据的丰富性和多样性特点,未揭示其认识论和本体论前提。第2章将阐明数据的概念。
数据特征与社会技术发展趋势相结合,将进一步加强人们对学术数据的用途、价值及挑战的认识。

1.2.1 大

德里克·德索拉·普赖斯(1963)认为大小科学之间的重要差别是量的不同,他提出大科学由组成学术社区的无形学院控制,他们私下进行数据交换,并管理该领域的专业活动(Crane 1970;Furner 2003b;Lievrouw 2010)。小科学则以较小规模运作,即社区较小、研究问题和方法的一致性较低以及基础设施较少。科学实验和所有学术形式均因普赖斯的观点而发生了很大变化。他是第一批现代科学史学家之一,其思想受到二战后科研事业发展的巨大影响(Furner 2003a,2003b)。1981年,普赖斯去世时,今天常见的分布式、数据密集型以及计算密集型研究活动几乎还没有诞生。但他提出的大小科学在量上具有重要区别这一观点,在大数据时代依旧正确。
大小数据只是近似类比于大小科学。普赖斯认为大小科学的区别不仅在于项目规模大小,还在于相应科学事业的发展成熟度。现代科学,也就是普赖斯所讲的大科学,具有国际化和协同攻关的特征,且由相互了解并通过正式和非正式渠道相互交流的无形学院研究人员构成。小科学具有300年历史,以独立和较小规模的工作方式发展解决研究问题的理论和方法。小科学在英文中有两种表达,即Little Science和Small Science,其具有方法多样性、数据异构性以及本地控制和分析的特征(Borgman, Wallis,and Enyedy 2007;Cragin et al. 2010;Taper and Lele 2004)。正如普赖斯所言,小科学研究领域也可能发展为大科学,不过大多数将依旧保持小科学的特征。
由于“大”的具体定义有很多种,所以大小数据的界限并不清晰。2013年,《牛津英语词典》将大数据纳入其中,即“大规模数据,特别是数据规模导致数据操纵和管理过程出现明显的逻辑挑战;或者是某个计算分支已达到上述规模。”大数据的其他定义关注相对规模,而非绝对大小。考虑到企业和政府应用,迈耶·舍恩伯格和库克(2013)认为,大数据指在大范围内获取,无法在较小范围得到满足。在学术界,大数据指那些以前所未有的规模或范围使用数据进行的研究(Meyer and Schroeder 2014;Schroeder 2014)。
数据是大是小取决于数据的用途、可揭示何种观点以及所感兴趣现象(如消费者购买行为或毒品发现)的分析规模。早期的大数据定义仍具有借鉴意义,即大量、多样、高速或这些特征的组合(Laney 2001)。三个维度中任何一个大幅增加都可能带来研究和学术规模的变化。
数据无处不在也是大数据产生的重要原因之一。随着日常生活中的信息技术越来越多,人类行为也更容易捕获。就在20年前,远程通信接入还是通过家庭拥有电话线的比例进行测算。而现在,几乎每个人都有多个通信设备,且每个通信设备都有唯一标识符。随着移动通信技术的指数级增长,发展中国家的数字信息传输也十分普遍。这些随处可见的设备要比电话多得多,它们不仅能传感、通信和计算,还可以捕获和分发文本、图像、音频和视频。由时间和地点构成的坐标系可用于刻画行为轨迹,创建连续活动记录。建筑物、车辆和公共场所都配备了相似技术。将所有轨迹结合起来,可以创建丰富的社会活动模型。数据及其用途的发展速度远远超过隐私法或信息政策的发展速度。
在媒体炒作和学术讨论背景下,数据相关概念不断兴起。这一现象反映了数据源和现在可用的庞大数字数据无处不在。据预测,科学、医学、商业及其他领域的数据已经达到临界规模。商业用语中有个“临界点”(tipping point)的概念,即某一种理念已经超越流行阈值,并得以快速传播。商业中的大数据就已经达到其临界点(Gladwell 2002)。除此之外,各行各业的数字数据也更易产生、挖掘和分配。
提出新问题、顺应新趋势、捕获从前无法捕获的现象等能力已经成就了新行业,一个与学术问题时而兼容、时而矛盾的行业。

1.2.2 开放性

软件模型、政府、标准、出版物、数据、服务和知识协同生产都已趋于开放,这种趋势改变了各领域利益相关者之间的关系(Benkler 2007;Hess and Ostrom 2007a;Kelty 2008;Raymond 2001)。数据开放旨在促进信息流动,提高系统服务耦合度及其协同工作能力。但数据开放需要经济和社会成本,“自由软件运动”就是经典案例。理查德·斯托曼(Richard Stallman 2002)认为,数据开放不同于免费啤酒,而更像言论自由。
受20世纪70年代电子出版物开放实践的影响,出版物开放获取开始的标志是2002年的《布达佩斯宣言》(Budapest Open Access Initiative 2002;Naylor and Geller 1995)。开放获取数据很早就有了,例如,成立于20世纪50年代的世界数据中心旨在对1957~1958年国际地球物理年上通过观测程序采集的数据进行归档和分配(Korsmo 2010;Shapley and Hart 1982)。1966年,国际科学理事会成立了国际科技数据委员会(CODATA),以促进数据管理方和使用方之间的合作(Lide and Wood 2012)。2007年,经济合作与发展组织编写了公共基金资助的研究类数据获取原则(Organisation for Economic Cooperation and Development 2007)。获取研究类数据的政策报告不断增加(Arzberger et al. 2004;National Research Council 1997;Esanu and Uhlir 2004;Mathae and Uhlir 2012;Pienta,Alter,and Lyle 2010;Wood et al. 2010)。第3章将详细描述开放获取出版物和开放数据。
开放获取是信息资源商品化发展趋势带来的结果。虽然这种趋势深受知识产权与信息经济政策影响,但临界量的满足已经产生了新市场。病历、消费者购买行为、社交媒体、信息检索、学术出版和基因组学等领域都能通过聚集大量数据以建立并促进市场发展。其中,部分数据完全在企业部门内进行交换,但许多数据也会跨越领域或在商业利益相关者之间交换。学术研究产生的数据可能具有商业价值,而商业过程产生的数据又可进一步服务于学术发展,由此产生了新型合作关系与紧张关系(Lessig 2004;Mayer-Schonberger and Cukier 2013;Schiller 2007;Weinberger 2012)。
伴随数据商品化而来的开放获取数据会推动研究政策的变革。当今政府、资助机构和学术期刊都鼓励或要求学者公开其数据(Finch 2012;National Science Foundation 2010b;National Institutes of Health 2003;Research Councils UK 2012a)。开放获取出版物和数据正加速各领域的学术交流,并导致了利益相关者之间的紧张关系。
信息流动在很大程度上依赖技术基础设施的发展。无线或有线通信网络的容量和渗透能力不断增强,用于支持信息、工具和服务供需关系的技术投资依旧不减。但技术投资不会直接推动信息交换发展。而且无论在企业、政党还是学术领域,技术基础设施都是黑客攻击的目标。隐私、机密、匿名和知识产权控制目前都处在关键期。移动数据、学术数据和其他数据以网络为中心,在安全、权利、保护、互用和政策之间形成了微妙平衡。

1.2.3 长尾

“长尾”是研究领域或经济部门中用于表示数据可用性与用途的经典方式。该词最早源于克里斯·安德森(Chris Anderson 2004),他在《连线》杂志中对比实体店与网店商品所占市场份额时提出如图1-1所示的著名统计分布,即指数分布定律。在安德森模型中,约15%的市场份额位于曲线头部,其余85%则沿曲线尾部分布。该模型在学术研究领域对应的含义是,少量科研团队使用大量数据展开工作,一些团队用非常少量的数据工作,大多数科研团队则处在这两种情况之间。曲线最右边表示大量学者用最少量数据进行研究工作(Foster et al. 2013)。

screenshot

长尾是表示特定领域或团队使用数据量的有效方法。其在诸如自然科学中的天文学、物理学和基因组学,社会科学中的宏观经济学,数字人文学科的某些领域,以及涉及大数据量的研究领域内依旧发挥着重要作用。总之,数据在各研究领域之间的分布并不均匀。
长尾隐喻的不足之处在于,其将任何领域或个体的数据实践划分为两个维度。除了数据处理量之外,学术活动也会受其他很多因素影响。一般而言,研究问题是选择方法和数据的驱动力,但反之亦可能正确。可用数据也会推动新问题的产生和新方法的应用。数据选择也依赖于研究人员本身及研究过程中其他资源的选择,具体包括理论、专业知识、实验室、设备、技术和社会网络、研究地点、研究人员以及其他资金投资形式。
一般而言,学术界描述数据分布的长尾中,少数学者使用的数据位于曲线头部,这部分数据虽然量特别大,但种类非常少。产生大量数据的大科学领域唯有使用通用仪器(如望远镜、DNA测序仪)和一致格式(如数据元、数据库结构),才能保证数据结构和内容的同质性。数据结构标准化能促进基础设施、工具和服务的共享。相反,具体研究领域的数据往往更靠近尾部,小科学和小学术领域的实践越多,数据内容、结构和表现越具有多样性。包括独立工作团队或小团队在内的小学术(small scholarship)研究人员可以更好地将已有研究方法、数据资料、仪器以及分析方法等用于解决现有问题。而不用像大学术(big scholarship)领域研究者那样,必须借助空间望远镜、线性碰撞机或大规模数字课题进行数据处理。由于共享设施基础标准的缺失和发展维持共享数据资源的临界量难以满足,因此灵活性成为大数据研究面临的又一挑战。
今天,大多数科学学术工作都由研究经费较少的个人或小团队研究人员完成(Heidorn 2008)。但也有部分科研团队融合了人员众多、分布广泛的国际性大团队,他们可以产生或分析大数据,并通过社区知识库进行数据交换(National Science Board 2005;Olson,Zimmerman,and Bos 2008)。相对而言,个体或独立科研团队研究人员往往进行探索性、局部性、多样性以及社区资源共享程度低的学术研究。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
11天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
92 7
|
11天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
26 2
|
24天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
68 1
|
8天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
15 4
|
18天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
40 3
|
18天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
51 2
|
21天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
64 2
|
21天前
|
存储 安全 网络安全
云计算与网络安全:保护数据的新策略
【10月更文挑战第28天】随着云计算的广泛应用,网络安全问题日益突出。本文将深入探讨云计算环境下的网络安全挑战,并提出有效的安全策略和措施。我们将分析云服务中的安全风险,探讨如何通过技术和管理措施来提升信息安全水平,包括加密技术、访问控制、安全审计等。此外,文章还将分享一些实用的代码示例,帮助读者更好地理解和应用这些安全策略。
|
23天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
55 2
|
25天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
下一篇
无影云桌面