《大数据、小数据、无数据:网络世界的数据学术》一 1.3 无数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第1章,第1.3节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 无数据

学者、学生、政府、企业和公众通常认为几乎所有主题的数据都存在且可用。其实,数据缺失现象普遍存在。在不同领域中,解决研究问题所需的数据量、数据产生速度和数据多样性具有很大差异。数据资源丰富的研究领域往往会构建数据资源池,以促进方法、工具和基础设施共享。数据资源池拥有比任何个人或团队都更多的数据,其可用于挖掘、组合,也能吸引更多目光聚焦于数据。在数据贫瘠领域,数据则是“珍贵财产”(Sawyer 2008,361),其能促进方法和理论的选择。长尾隐喻中,数据丰富和贫瘠领域的二分法过度简化了所有研究过程的数据资源复杂度。以下是特定研究问题或项目无数据或可用数据很少的部分原因。

1.3.1 数据不可获取

大部分领域的学者因创造新数据而获奖。利用研究经费通过观察、实验、调查、建模、民族志或其他手段研究新数据比重新分析现有数据更容易。学者研究无数据主题时,往往更易获得竞争优势。学者重新分析现有数据进行研究的领域包括天文学、社交媒体、城市建模、气候学和生物科学中的“理化模拟实验”研究等。
相关数据也可能存在,但拥有者没有义务发布或法律禁止发布,此类数据包括业务记录、专利方法、博物馆监护记录、教育记录和潜在有助于研究的很多其他信息形式。其中,部分数据经其拥有者允许或在个人身份匿名等条件下可以获取。研究机构、政府和企业的数据发布趋势也使之前的专有数据具有可用性。
药物或其他临床试验的医学数据争议很大,这些数据具有较高货币和竞争价值,且在临床护理中具有重要作用。由于其与公众利益密切相关,所以患者希望拥有更多访问这些数据和研究结果的权限。选择性发布和报告临床试验数据已成为备受关注的公共政策。虽然本书并未深入探讨生物医学数据,但以临床试验数据为代表的生物医学数据走在开放获取政策和利益相关者关系调整的前列(De Angelis et al. 2005;Edwards et al. 2009;Fisher 2006;Goldacre 2012;Hrynaszkiewicz and Altman 2009;Kaiser 2008;Laine et al. 2007;Lehman and Loder 2012;Marshall 2011;Prayle,Hurley,and Smyth 2012;Ross et al. 2012;Wieseler et al. 2012)。
第5章探讨的社会科学与人文学科中人类相关主题的数据因敏感性而无法进行公开。类似综合社会调查的数据经过一定程度匿名处理后,最可能变成可重用数据。民族志和其他形式的定性数据则几乎只能供采集它们的调查人员和团队使用。

1.3.2 数据不可发布

一些学术领域的数据公开获取具有悠久历史,但对数据发布持积极态度的领域则少之又少。正如第8章所探讨的那样,不发布数据在学术界是一种科学弊端,在其他领域则是玩忽职守。例如,化学中为了重用数据而采集和存储数据的行为被称为“集邮”(Lagoze and Velden 2009a,2009b)。数据具有交换价值和贸易价值,甚至会成为合作者或投资者的谈判筹码。数据一经发布,研究人员就无法控制其使用者、使用方法、使用时间和使用原因,从而产生研究类数据的断章取义、误用或误解等问题,这些都会严重影响研究过程(Hilgartner and Brandt-Rauf 1994)。
最近,相关政策向数据发布迈出了重要一步,其要求项目申请书应当包括数据管理计划。但依旧很少有涉及开放获取数据的政策。相反,研究者必须详细说明采集何种数据、如何管理数据以及数据在何种条件下可供给他人使用。同样,虽然学术期刊数量较少,但越来越多的期刊要求其论文发布对应的数据。数据发布可以通过把数据贡献给社区档案馆或机构知识库等机制,使数据成为学术期刊论文的补充材料,公开在当地网站或按要求发布(Alsheikh-Ali et al. 2011;Wallis,Rolando,and Borgman 2013)。
某些领域的研究者具有专有期(也叫禁令期),即数据发布前的控制阶段。研究者控制数据的时间从几个月到几年不等。该期限使研究者有足够时间分析数据并发表成果,但同时鼓励面向社会发布数据。资助机构或学术期刊通常在学者研究成果发表时或发表不久后,要求其发布数据。很少有学者在发表出版物前进行数据发布,除非已经超出其专有期限或者有诸如临床试验数据发布等其他规则的要求。
斯蒂夫·索耶(Steve Sawyer 2008)认为,数据贫乏领域内的数据隐瞒做法已得到普遍认同。例如,人文学科学者会尽力保护罕见手稿、信件或其他资源。社会科学学者也会保护资料、调研地点和相关数据。物理和生命科学中的研究人员也可能保护调研地点、物种、观察资料和实验。国家也会保护考古遗址、文化遗产资料和其他数据资源,且仅允许本土学者及其研究合作者获取相关资料。贫穷国家的所有领域学者都可能保护他们从机会难得的跨国旅行中带回的珍贵资源。
许多领域的学者都可能在职业生涯过程中不断挖掘从未研究过的数据集或其他资源。诸如物种或现象的累计观测数据等数据集会随时间增值。学者的笔记、记录和资料在其他学者看来,都是有价值的数据。但这种数据仅可能在学者职业生涯结束时才可获得,同时也取决于学者何时把数据提供给档案馆。

1.3.3 数据不可用

使用自己编写的数据说明文档就已经十分困难了,通过编写数据说明文档帮助他人发现、检索、解释和重用数据更是难上加难。投入努力使数据为他人所用的动机因无数社会、技术、政治、经济和情景因素而异,本书将在第8章和第9章进行详细讨论。
发布数据和使其可用是两个完全不同的概念。数据解释所需的必要信息因具体问题、研究领域、专业知识以及研究人员所掌握的资源而异,第4章将借助案例研究对此进行进一步解释。一般而言,编码手册、模型以及对采集、清理和分析数据方法的详细描述是进行数据解释的必要信息。除此之外,数字数据集只能用统计工具、面向仪器的代码或面向领域(领域范围从艺术到动物学不等)的软件等特定软件打开。很多特定软件都有专有性。数据起源和转换相关信息在数据重用过程中必不可少。重用数据距其起源的距离可以按照时间、理论、学科以及其他方式进行度量。无论依据何种方式进行度量,重用的数据距其起源越远,数据集的可解释性或可评估性就越差。
虽然专家能对数据进行准确描述,但如果不能快速编写文件对数据进行说明,那数据可能很快就不能用了。同样,随着创建和分析数据的软硬件版本不断更新,数据集的同步性也越来越差。
数据监护问题的核心是何种数据值得保存,以及数据保存的原因、受益者、保存人以及保存期限分别是什么。数据监护的责任应该由谁承担?研究者?学术社区?高校?资助机构?还是其他利益相关者?第10章将对这些问题进行探讨。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
61 7
|
7天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
22 2
|
20天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
64 1
|
14天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
36 3
|
14天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
49 2
|
17天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
55 2
|
18天前
|
存储 安全 网络安全
云计算与网络安全:保护数据的新策略
【10月更文挑战第28天】随着云计算的广泛应用,网络安全问题日益突出。本文将深入探讨云计算环境下的网络安全挑战,并提出有效的安全策略和措施。我们将分析云服务中的安全风险,探讨如何通过技术和管理措施来提升信息安全水平,包括加密技术、访问控制、安全审计等。此外,文章还将分享一些实用的代码示例,帮助读者更好地理解和应用这些安全策略。
|
19天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
50 2
|
21天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
22天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:从漏洞到加密,保护数据的关键步骤
【10月更文挑战第24天】在数字化时代,网络安全和信息安全是维护个人隐私和企业资产的前线防线。本文将探讨网络安全中的常见漏洞、加密技术的重要性以及如何通过提高安全意识来防范潜在的网络威胁。我们将深入理解网络安全的基本概念,学习如何识别和应对安全威胁,并掌握保护信息不被非法访问的策略。无论你是IT专业人士还是日常互联网用户,这篇文章都将为你提供宝贵的知识和技能,帮助你在网络世界中更安全地航行。

热门文章

最新文章