《大数据、小数据、无数据:网络世界的数据学术》一 1.3 无数据

简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第1章,第1.3节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 无数据

学者、学生、政府、企业和公众通常认为几乎所有主题的数据都存在且可用。其实,数据缺失现象普遍存在。在不同领域中,解决研究问题所需的数据量、数据产生速度和数据多样性具有很大差异。数据资源丰富的研究领域往往会构建数据资源池,以促进方法、工具和基础设施共享。数据资源池拥有比任何个人或团队都更多的数据,其可用于挖掘、组合,也能吸引更多目光聚焦于数据。在数据贫瘠领域,数据则是“珍贵财产”(Sawyer 2008,361),其能促进方法和理论的选择。长尾隐喻中,数据丰富和贫瘠领域的二分法过度简化了所有研究过程的数据资源复杂度。以下是特定研究问题或项目无数据或可用数据很少的部分原因。

1.3.1 数据不可获取

大部分领域的学者因创造新数据而获奖。利用研究经费通过观察、实验、调查、建模、民族志或其他手段研究新数据比重新分析现有数据更容易。学者研究无数据主题时,往往更易获得竞争优势。学者重新分析现有数据进行研究的领域包括天文学、社交媒体、城市建模、气候学和生物科学中的“理化模拟实验”研究等。
相关数据也可能存在,但拥有者没有义务发布或法律禁止发布,此类数据包括业务记录、专利方法、博物馆监护记录、教育记录和潜在有助于研究的很多其他信息形式。其中,部分数据经其拥有者允许或在个人身份匿名等条件下可以获取。研究机构、政府和企业的数据发布趋势也使之前的专有数据具有可用性。
药物或其他临床试验的医学数据争议很大,这些数据具有较高货币和竞争价值,且在临床护理中具有重要作用。由于其与公众利益密切相关,所以患者希望拥有更多访问这些数据和研究结果的权限。选择性发布和报告临床试验数据已成为备受关注的公共政策。虽然本书并未深入探讨生物医学数据,但以临床试验数据为代表的生物医学数据走在开放获取政策和利益相关者关系调整的前列(De Angelis et al. 2005;Edwards et al. 2009;Fisher 2006;Goldacre 2012;Hrynaszkiewicz and Altman 2009;Kaiser 2008;Laine et al. 2007;Lehman and Loder 2012;Marshall 2011;Prayle,Hurley,and Smyth 2012;Ross et al. 2012;Wieseler et al. 2012)。
第5章探讨的社会科学与人文学科中人类相关主题的数据因敏感性而无法进行公开。类似综合社会调查的数据经过一定程度匿名处理后,最可能变成可重用数据。民族志和其他形式的定性数据则几乎只能供采集它们的调查人员和团队使用。

1.3.2 数据不可发布

一些学术领域的数据公开获取具有悠久历史,但对数据发布持积极态度的领域则少之又少。正如第8章所探讨的那样,不发布数据在学术界是一种科学弊端,在其他领域则是玩忽职守。例如,化学中为了重用数据而采集和存储数据的行为被称为“集邮”(Lagoze and Velden 2009a,2009b)。数据具有交换价值和贸易价值,甚至会成为合作者或投资者的谈判筹码。数据一经发布,研究人员就无法控制其使用者、使用方法、使用时间和使用原因,从而产生研究类数据的断章取义、误用或误解等问题,这些都会严重影响研究过程(Hilgartner and Brandt-Rauf 1994)。
最近,相关政策向数据发布迈出了重要一步,其要求项目申请书应当包括数据管理计划。但依旧很少有涉及开放获取数据的政策。相反,研究者必须详细说明采集何种数据、如何管理数据以及数据在何种条件下可供给他人使用。同样,虽然学术期刊数量较少,但越来越多的期刊要求其论文发布对应的数据。数据发布可以通过把数据贡献给社区档案馆或机构知识库等机制,使数据成为学术期刊论文的补充材料,公开在当地网站或按要求发布(Alsheikh-Ali et al. 2011;Wallis,Rolando,and Borgman 2013)。
某些领域的研究者具有专有期(也叫禁令期),即数据发布前的控制阶段。研究者控制数据的时间从几个月到几年不等。该期限使研究者有足够时间分析数据并发表成果,但同时鼓励面向社会发布数据。资助机构或学术期刊通常在学者研究成果发表时或发表不久后,要求其发布数据。很少有学者在发表出版物前进行数据发布,除非已经超出其专有期限或者有诸如临床试验数据发布等其他规则的要求。
斯蒂夫·索耶(Steve Sawyer 2008)认为,数据贫乏领域内的数据隐瞒做法已得到普遍认同。例如,人文学科学者会尽力保护罕见手稿、信件或其他资源。社会科学学者也会保护资料、调研地点和相关数据。物理和生命科学中的研究人员也可能保护调研地点、物种、观察资料和实验。国家也会保护考古遗址、文化遗产资料和其他数据资源,且仅允许本土学者及其研究合作者获取相关资料。贫穷国家的所有领域学者都可能保护他们从机会难得的跨国旅行中带回的珍贵资源。
许多领域的学者都可能在职业生涯过程中不断挖掘从未研究过的数据集或其他资源。诸如物种或现象的累计观测数据等数据集会随时间增值。学者的笔记、记录和资料在其他学者看来,都是有价值的数据。但这种数据仅可能在学者职业生涯结束时才可获得,同时也取决于学者何时把数据提供给档案馆。

1.3.3 数据不可用

使用自己编写的数据说明文档就已经十分困难了,通过编写数据说明文档帮助他人发现、检索、解释和重用数据更是难上加难。投入努力使数据为他人所用的动机因无数社会、技术、政治、经济和情景因素而异,本书将在第8章和第9章进行详细讨论。
发布数据和使其可用是两个完全不同的概念。数据解释所需的必要信息因具体问题、研究领域、专业知识以及研究人员所掌握的资源而异,第4章将借助案例研究对此进行进一步解释。一般而言,编码手册、模型以及对采集、清理和分析数据方法的详细描述是进行数据解释的必要信息。除此之外,数字数据集只能用统计工具、面向仪器的代码或面向领域(领域范围从艺术到动物学不等)的软件等特定软件打开。很多特定软件都有专有性。数据起源和转换相关信息在数据重用过程中必不可少。重用数据距其起源的距离可以按照时间、理论、学科以及其他方式进行度量。无论依据何种方式进行度量,重用的数据距其起源越远,数据集的可解释性或可评估性就越差。
虽然专家能对数据进行准确描述,但如果不能快速编写文件对数据进行说明,那数据可能很快就不能用了。同样,随着创建和分析数据的软硬件版本不断更新,数据集的同步性也越来越差。
数据监护问题的核心是何种数据值得保存,以及数据保存的原因、受益者、保存人以及保存期限分别是什么。数据监护的责任应该由谁承担?研究者?学术社区?高校?资助机构?还是其他利益相关者?第10章将对这些问题进行探讨。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
22天前
|
机器学习/深度学习 自然语言处理 数据处理
大模型开发:描述长短期记忆网络(LSTM)和它们在序列数据上的应用。
LSTM,一种RNN变体,设计用于解决RNN处理长期依赖的难题。其核心在于门控机制(输入、遗忘、输出门)和长期记忆单元(细胞状态),能有效捕捉序列数据的长期依赖,广泛应用于语言模型、机器翻译等领域。然而,LSTM也存在计算复杂度高、解释性差和数据依赖性强等问题,需要通过优化和增强策略来改进。
|
27天前
|
存储 安全 网络安全
网络安全与信息安全:保护数据的关键
网络安全与信息安全一直是当今社会中备受关注的话题。本文将从网络安全漏洞、加密技术和安全意识等方面展开讨论,以分享相关知识并强调其重要性。通过深入探讨这些关键问题,希望能够增强读者对网络安全和信息安全的认识,提高其防范意识和保护能力。
16 0
|
1月前
|
数据采集 存储 XML
深入浅出:基于Python的网络数据爬虫开发指南
【2月更文挑战第23天】 在数字时代,数据已成为新的石油。企业和个人都寻求通过各种手段获取互联网上的宝贵信息。本文将深入探讨网络爬虫的构建与优化,一种自动化工具,用于从网页上抓取并提取大量数据。我们将重点介绍Python语言中的相关库和技术,以及如何高效、合法地收集网络数据。文章不仅为初学者提供入门指导,也为有经验的开发者提供进阶技巧,确保读者能够在遵守网络伦理和法规的前提下,充分利用网络数据资源。
|
3天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
15天前
|
安全 算法 网络安全
网络安全与信息安全:保护你的数据,保护你的未来
在数字化的世界中,网络安全和信息安全已经成为我们生活的重要组成部分。本文将深入探讨网络安全漏洞、加密技术以及安全意识等方面的问题,以期帮助读者更好地理解和应对网络安全威胁。
16 4
|
22天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:保护你的数据,保护你的未来
在数字化的世界中,网络安全和信息安全是每个人都需要关注的问题。本文将深入探讨网络安全漏洞、加密技术以及安全意识等方面的问题,帮助读者更好地理解和保护自己的数据。我们将讨论如何识别和防范网络安全威胁,如何使用加密技术来保护信息,以及如何提高自己的安全意识,从而在网络世界中更安全地生活和工作。
16 5
|
22天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:保护您的数据和隐私
随着互联网的普及和技术的快速发展,网络安全和信息安全已经成为我们日常生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术以及安全意识等方面的知识,帮助读者更好地保护自己的数据和隐私。
21 4
|
23天前
|
存储 SQL 安全
网络安全与信息安全:保护数据的关键策略
在数字化时代,网络安全和信息安全已成为维护数据完整性、保障用户隐私和企业竞争力的核心。本文章深入探讨了网络安全漏洞的概念、加密技术的重要性以及提升安全意识的必要性。通过对当前网络威胁的分析,本文提出了一系列针对性的防护措施,旨在帮助读者构建更为坚固的信息安全防线。
15 4
|
24天前
|
存储 安全 网络安全
网络安全与信息安全:保护数据,守护未来
在当今数字化时代,网络安全和信息安全变得尤为重要。本文将探讨网络安全漏洞、加密技术以及提升安全意识等方面的知识,帮助读者更好地了解并保护自己在网络空间中的信息安全。