《大数据、小数据、无数据:网络世界的数据学术》一 3.4 开放学术

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.4节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4 开放学术

随着开放获取、开放资源、开放数据、开放标准、开放知识库、开放网络、开放书目、开放注解等专业词汇的出现,“开放”列表依旧不断增加。正如第1章介绍的那样,开放获取运动从19世纪70年代进行至今。开放获取研究的发展旨在提高系统、工具和服务之间的互操作性机制。其与分布式计算网络技术的进步以及几乎无所不在的互联网接入,共同成就了今天的知识基础设施,并将进一步推动其发展。
定义开放学术的难度不亚于界定数据学术,开放学术几乎等同于开放科学。为方便讨论,这里的开放学术包括开放获取出版物、开放数据、数据发布和数据共享相关的政策和实践。开放学术的目标是加快研究速度,鼓励提出新问题、推动调查方式创新,减少学术诈欺和不端行为,推动技术和科学劳动力增长,并利用公共投资推动研究和教育事业发展(David,den Besten,and Schroeder 2010;Esanu and Uhlir 2004;Nielsen 2011;Boulton et al. 2012;Uhlir and Schr鰀er 2007)。
但是,开放学术这种单一术语的使用,可能会模糊各开放获取形式间的本质差异。本书的第三项挑战指出,出版物和数据分别在学术活动中发挥着不同作用,以下将进一步阐述。开放获取出版物和开放数据目标相同,即促进信息流动、减少知识资源的使用限制、提高研究实践透明度。二者的学术价值、利益相关者及其跨环境、随时间的可移植性均有所差异。

3.4.1 开放获取研究成果

1665年第一批期刊出现后,学术活动从私人领域的书信和会议形式转变为公开传播方式。读者可以通过图书馆、书商和个人订阅途径获取书籍、期刊和其他出版物。同时,信件、草稿、手稿和预印本的私下交换方式依旧存在。
1991年,随着arXiv的发布,开放获取研究成果取得了巨大飞跃。因为出现在万维网之前,所以arXiv的原始地址为xxx.lanl.gov(Ginsparg 1994,2001)。在此后的20多年间,arXiv已扩展到其他科学领域,从洛斯阿拉莫斯国家实验室搬到康奈尔大学,并得到成员机构的广泛支持。其使用量呈指数形式持续增长。目前,每月有8000多篇论文上传到arXiv,且仅2012年的论文下载量就超过了6000万(ArXiv.org 2013)。
arXiv为今天的开放获取数据提供了三条重要经验。首先,该系统的研究领域为高能物理学,是活跃的预印本交流文化的产物。它建立在支持亲近同事间进行信息交换的知识基础设施之上,这种基础设施叫作无形学院(invisible colleges)(Crane 1972)。
其次,arXiv改变了物理学学术交流中作者、出版商、图书馆和读者等利益相关者之间的关系,从而扰乱了现有知识基础设施。无论国家富裕与否,研究人员和学生都能在官方发布出版物之前获得论文。随着arXiv的快速发展和广泛应用,物理学领域的期刊编辑和出版商除了接受它的存在之外,别无选择。许多期刊之前不考虑在线发布论文,因为这样的发布构成了优先出版(prior publication)。今天,许多领域仍有类似政策。
最后,arXiv的成功并没有很快或很好地迁移到其他领域。虽然其他领域的预印服务器规模和普及量均不断加大,但没有一个像arXiv那样深入学术实践中。arXiv目前已经扩展到物理、数学、天文学以及其他领域,但其并没有深入每个领域的每个方面。在一些研究领域中,arXiv的使用无所不在。但在其他领域,它也只是偶尔发挥作用。
开放获取出版物在早期经验的基础上展开。开放获取虽然是个简单概念,但由于利益相关者之间的竞争性,其很容易被误解。彼得·萨伯(Peter Suber 2012a,4)对该词的定义最为简洁:“开放获取(Open Access,OA)文献具有数字化、在线、免费、大部分无版权和许可限制等特征。”萨伯随后又指出,开放获取研究学术文献和开放获取其他形式内容的操作过程不同。开放获取文献的原则之一为作者拥有作品版权,除非或直到该权利被转移到另一方(如出版商)。另一个原则是,学者写研究论文一般都不是为了获取酬劳。在作品广泛传播的同时,学者自己并不损失任何利益,但大部分其他作者、艺术家和创造者的收益往往会受到影响。学者写研究论文是为了提高影响力,而非收入。因此,他们希望可以尽可能接触更多读者以提高自身利益。学术研究的资金主要来源于学术工资和研究基金。学者的利益与雇佣、资助学者的机构的利益相一致,因为他们的出版物也可以从中提高影响力。
开放获取文献的实现方式多样、监管模式丰富,同时还有很多别称(如绿色、黄金、免费、自由等)。这些模式的共同点是均基于上述两个原则。作者通常会保留公开传播作品的版权或许可和作为作品创作者的其他权利。但一般情况下,对作者有直接收入的学术书籍、教科书和其他作品进行开放获取时,也会考虑一些其他问题(Budapest Open Access Initiative 2002;Directory of Open Access Journals 2013;Howard 2013a;Jacobs2006;Laakso and Bj鰎k 2013;Leptin 2012;Pinter 2012;Research Councils UK 2013;Suber 2012a;Van Noorden 2013b;Wickham and Vincent 2013;Wilbanks 2006;Willinsky 2006)。
大约从2005年以来,全世界越来越多的研究机构对其研究人员的期刊出版物实行开放获取政策,如美国的哈佛大学、麻省理工学院、加利福尼亚理工学院和加利福尼亚大学(Harvard University 2010;MIT Libraries 2009;Caltech2013a;Office of Scholarly Communication 2013)。一般情况下,开放获取政策会授予高校非排他性许可,允许其将研究工作通过公共知识库进行传播。开放获取出版物在2012年和2013年取得重大进展。2012年,英国研究委员会(Research Councils of the United Kingdom,RCUK)宣布,受该机构全部或部分资助的所有同行评审期刊论文和会议论文都将提交到开放获取期刊上。该政策于2013年4月起生效。由于争议很大,因此政策中“开放获取期刊”的定义进行了多次修改和解释。“开放获取期刊”包括专有期、一系列商业模式以及一些临时补贴(Research Councils UK 2012a,2012b)。2013年,美国政府行政部门对受联邦基金资助的出版物宣布了一项类似政策,即一般遵循由美国国家卫生研究院和公共医学中心(the National Institutes of Health and PubMed Central)规定的专有期和政策(Office of Science and Technology Policy 2013;Holdren 2013b)。欧盟、澳大利亚以及其他国家正在商讨类似政策。
各种各样的政策、商业模式和出版物类型使学术期刊文献的公开获取途径更加丰富。考虑到专有期,一年内出版的期刊论文中约一半可以在网上免费获取,而且这一比例将进一步增长(Laakso et al.2011;Van Noorden 2013a)。虽然还有很多细节需要进一步商榷,但开放获取期刊论文正逐渐成为一种制度。然而,利益相关者之间的紧张关系尚未得到缓解。部分作者依旧在网上发布不符合开放获取政策的文章、论文和其他作品,一些出版商对其具有独家版权作品的相关开放获取政策表示不满(Howard 2013b;SHERPA/RoMEO 2014)。

3.4.2 开放获取数据

许多资助机构的开放获取数据政策都与开放获取出版物政策相关。英国的政策对这种关系进行了清晰阐述(Research Councils UK2012b,1):“根据政务透明和开放数据总战略,政府致力于确保已发表的研究成果可以免费获取。”英国研究理事会关于开放获取期刊的政策要求作者说明如何获取出版物相关数据,但同时承认这种做法的复杂性(Research Councils UK2012b,4):“确保研究人员考虑数据获取问题……但是,本政策并不要求所有数据必须公开。声明指出,如果有足够理由(如潜在包含参与者身份信息的数据具有商业机密性和法律敏感性)要求实现数据保护时,可以有例外。”
美国国家卫生研究院(National Institutes of Health,NIH)要求把受其资助的出版物存入公共医学中心(PubMed Central),同时需要在项目申请书中加入数据管理计划(Basken2012;National Institutes of Health 2013;PubMed Central 2009;Zerhouni2006)。美国国家科学基金(National Science Foundation,NSF)对数据管理计划有要求,但对开放获取出版物没有要求。然而,随后美国联邦政府发布的开放获取出版物相关政策将同样适用于NSF、NIH和其他联邦机构。这些机构平均每年在研发上投资1亿多美元。该政策将指导每个机构制定出科学出版物和数字科学数据的开放获取计划(Holdren 2013b;Burwell et al. 2013)。
然而,开放获取期刊论文和开放数据在萨伯(2012a)的两条原则上均不相同。虽然作者至少最初是期刊论文的版权所有者,但该事实并不适用于数据。正如第9章深入探讨的那样,领域内和领域间的数据归属权都是很有争议的话题。该争议一旦解决,作品“作者”就会拥有某些特定权利和责任。大多数合作都未探讨过谁有资格成为数据“作者”这一问题(Wallis 2012)。即使将数据权限分配给个人和社区,数据相关权责依旧不清晰。许多数据形式都是由学者创造和控制的,但是数据所有权却是另一回事。某些数据形式不可能获得版权。研究人员使用的数据多来自于其他利益相关者或公共资源池。人类本身的机密记录等数据由学者控制,而无法进行发布。数据权利相关政策可能因机构、资助机构、合同、管辖权和其他因素而异。
萨伯的第二个原则指出,学者写期刊论文以及其他形式的出版物是为了提高影响力,而非收入。学者及其用人单位和资助者都有尽可能广泛传播出版物的动力。但是,以上两种情况均不适用于大多数数据。期刊论文经处理后传播给受众,但数据却很难从学术工作过程中提取出来。数据发布通常需要大量投入,而且这种投入量超过了研究和撰写出版物的行为成本。数据可以被视为职业生涯中积累的宝贵资产。因此,如果有数据的话,必须谨慎发布。
开放获取数据的治理模式刚刚兴起,本书将在第4章和第10章对此展开更全面的讨论。由第1章中斯托曼的格言可知,英国研究理事会政策中的“freely accessible”一词似乎更偏向于言论自由的意义,而非免费啤酒的意义。解决任何普遍性问题时,都需要考虑公平性、效率性和可持续性(Hess and Ostrom 2007a)。目前,只有部分领域通过使用知识库实现了数据的提炼、监护和访问,解决了公平和效率问题。某些领域中,私人交换就能满足数据需求,而其他领域则求助于研究型图书馆。在上述所有领域中,可持续性问题依旧尚未解决。一些知识库有长期资金支持,而其他的只有短期支持。有些为所有人免费提供数据,而其他的只向为其提供资金的财团成员提供数据。就像第8章讨论的那样,通过私下交易或研究团队网站发布方式进行的数据共享只在短期内有效。
因此,开放数据与开放获取学术文献截然不同。各领域至今尚未就数据“开放”的涵义达成一致。彼得·默里-拉斯特(Peter Murray-Rust)和亨利·热帕(Henry Rzepa)(2004)最早提出的开放数据框架涵括了后来的大多数观点。作为化学家,他们更关注自由访问以及结构化数据的挖掘能力。算法可以通过分子等实体的表示识别出实体结构,当实体用这种方式进行表示时,其就会成为可供挖掘、提取和操纵的数据,也就更有用。当相同分子仅用文本文件中的图像进行表示时,就需要人工识别其结构。在他们看来,开放数据是一种“数据文件”,其作用在于实现数据的机器可读和自由访问。
在开放知识基金会的支持下,默里-拉斯特等人提出了“开放数据”简洁的法律定义:“一段数据或内容开放是指,在只有或至多满足标准和(或)授权要求的条件下,所有人均可免费使用、重用和重新分配它(Open Data Commons 2013)。”商业环境中的“开放数据”定义更模糊:“开放数据—政务数据等机器可读信息以及他人可获得的数据(Manyika et al. 2013)。”《经济合作与发展组织关于公共资金资助的研究数据获取原则与指南》(Organisation for Economic Co-operation and Development 2007)在第13条原则中规定了开放数据的框架,第8章将对这部分进行说明。英国皇家学会的报告《科学:开放的事业》(Boulton et al. 2012,14)将“开放数据”定义为“满足知识开放标准的数据。数据必须具有可获取、可使用、可评估和可识别特征。”生物医学数据开放的含义还包括成本效益权衡、数据发布的触发定时机制、数据质量确保方式、包含的数据范围、保密性、隐私性、安全性、知识产权和管辖权(Boulton et al. 2011)。
开放性可能会加速数据创造。比如,开放获取文本会使文本中的实体成为数据。文本挖掘技术可以对描述特定分子、天体、人、地点、事件或其他实体的所有文章或书籍进行定位。从数据挖掘角度来看,出版物数据库、数据档案和数字书籍集合逐渐趋于相似(Bourne et al. 2011;Bourne 2005;Crane 2006; Murray-Rust et al. 2004)。但是,从知识产权的角度来看,它们却完全不同,具体将在第4章进行探讨。
开放数据还能够将研究对象的表示视为数据,而且与研究对象本身是否公开无关。研究对象的表示是出版物、数据集以及其他内容的公开标签或注释。注释和参考书目给描述对象赋予了价值,使其更容易被发现。共享注释出现于数字化图书馆研究早期。目前,已经产生了多种竞争性的共享注释方法。同时,也有很多学者致力于提升注释系统互操作性的标准化研究(Foster and Moreau 2006;Hunter 2009;Phelps and Wilensky 1997,2000)。ProCite、BiblioLink、RefWorks和EndNote等早期个人参考文献管理工具,都基于本地存储文件为单个作者提供服务。21世纪10年代初,研究人员开始对网站、图像、出版物和数据进行标记和注释,并分享到Delicious和Flickr等社交网络上。到21世纪10年代后期,个人参考文献和开放注释逐步融合。Zotero、Mendeley和LibraryThing等其他工具可以共享参考文献、标签和笔记。由于国家图书馆开始发布开放使用的编目记录(Open Bibliography and Open Bibliographic Data 2013),因此开放参考文献运动获得了巨大飞跃。随着更多参考文献记录逐步公开可用,参考文献记录成为待挖掘的数据之一。注释工具带来了数据类型的与日俱增(Agosti and Ferro2007;Das et al. 2009;Kurtz and Bollen 2010;Renear and Palmer 2009;Rodriguez,Bollen,and Van de Sompel 2007)。

3.4.3 开放技术

40余年来,网络技术逐渐从封闭向开放过渡,而开放学术正是其中一部分。互联网的起源和发展轨迹在整个过渡中最为传奇(Abbate 1999;Goldsmith and Wu2006;Kraut et al. 2002;Levien et al. 2005;MacLean 2004;O’Brien 2004;Odlyzko 2000;National Research Council 2001;Zittrain 2005)。人们普遍认为,计算机网络是政府出于研究和军事目的而资助开发的。从20世纪60年代末的第一次国际网络互联到90年代初的政策变化,互联网仅通过政府合同供研究、学术和军事团队使用。这种网络被称为国家研究和教育网络(National Research and Education Network,NREN)。计算机系统生命周期过程耗资较多,为了通过网络对其实现共享,研究人员对原有的互联网功能进行了扩展,具体包括电子邮件、文件传输以及其他类似功能。为进一步支持商业活动、提供参考文献数据库等新型信息服务,Telenet和Tymnet等并行式商业化分组交换网络开始给私营企业提供商业通信(Borgman,Moghdam,and Corbett 1984;Borgman 2000)。
在国家信息基础设施标准和全球信息基础设施标准影响下,1993~1994年进行的政策调整允许政府和商业机构进行网络互联。从此,商品互联网诞生,通信网络也完成了从国有或受保护系统到商业运营的转变。互联网宣称其为公共和私人实体提供的互联和服务都具有“开放”性。随着万维网的首次展示和第一个浏览器界面的诞生,网络逐渐趋于开放。此后20年中,互联网技术、功能和用户群体均已远远超乎最初设计师的最大想象。但是,新型商业模式、利益相关者之间平衡关系的变迁以及安全和隐私中无法预见的挑战,均正在推动基础设施的再设计(Borgman 2000;Estrin et al. 2010)。
在开放网络中实现数据迁移与使已获取数据可用完全不同。只有特定技术能读取数字数据和数字表示。数字数据集的解释需要以下内容:生成数据的硬件,即传感器网络或实验室机器;数据编码或分析软件,即图像处理工具或统计工具;以及整合以上内容所需的协议和专业知识。技术发展非常迅速,在研究领域中更是如此。许多仪器产生的数据只能用特定软件读取。使用或重用数据时,需要版本正确的软件以及可能的其他仪器。许多分析工具具有专有性,因此数据分析可能产生特定格式的数据集,而这些与数据提取时的开放程度无关。学者们经常自己构建工具,编写代码来解决临时问题。虽然这种做法短期内有效,但本地代码和仪器很难进行长期维护。更何况学者们在解决临时问题时,很少兼顾软件工程的工业标准。本地工具具有灵活性和可适应性,缺点是跨站点和跨情景的可移植性差(Easterbrook and Johns 2009;Edwards et al. 2013;Segal2005,2009)。
数据、标准和技术的开放程度会影响数据在工具、实验室和合作伙伴之间以及随时间的交换能力。标准可能改善社区内的信息流动,但也可能在社区之间形成信息交流障碍。因为标准可能不成熟或不适当,从而形成障碍,进而阻碍创新。长期以来,系统和服务的技术互操作性一直是数字图书馆和软件工程努力追求的目标。互操作性允许部分数据和利益相关者参与其中,而阻止其他对象进入。与技术本身相比,政策、实践、标准、商业模式和既得利益往往是决定互操作性的更重要的因素(Brown and Marsden 2013;Busch 2013;DeNardis 2011;Lampland and Star 2009;Libicki 1995;Palfrey and Gasser 2012)。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
82 11
|
2月前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
82 1
|
2月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
|
2月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
2月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
网络协议 Windows
在电脑上测试TCP/UDP端口是否开放,还是得网络大佬这招厉害!
在电脑上测试TCP/UDP端口是否开放,还是得网络大佬这招厉害!
|
2月前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
44 1
|
2月前
|
机器学习/深度学习 安全 网络协议
网络安全公开数据集Maple-IDS,恶意流量检测数据集开放使用!
【8月更文挑战第29天】Maple-IDS 是东北林业大学网络安全实验室发布的网络入侵检测评估数据集,旨在提升异常基础入侵检测和预防系统的性能与可靠性。该数据集包含多种最新攻击类型,如 DDoS 和 N-day 漏洞,覆盖多种服务和网络行为,兼容 CIC-IDS 格式,便于直接使用或生成 csv 文件,适用于多种现代协议。
|
2月前
|
分布式计算 安全 大数据
MaxCompute 的安全性和数据隐私保护
【8月更文第31天】在当今数字化转型的时代背景下,企业越来越依赖于大数据分析来推动业务增长。与此同时,数据安全和隐私保护成为了不容忽视的关键问题。作为阿里巴巴集团推出的大数据处理平台,MaxCompute(原名 ODPS)致力于为企业提供高效、安全的数据处理解决方案。本文将探讨 MaxCompute 在数据安全方面的实践,包括数据加密、访问控制及合规性考虑等方面。
70 0
|
2月前
|
SQL 分布式计算 大数据
"揭秘MaxCompute大数据秘术:如何用切片技术在数据海洋中精准打捞?"
【8月更文挑战第20天】在大数据领域,MaxCompute(曾名ODPS)作为阿里集团自主研发的服务,提供强大、可靠且易用的大数据处理平台。数据切片是其提升处理效率的关键技术之一,它通过将数据集分割为小块来优化处理流程。使用MaxCompute进行切片可显著提高查询性能、支持并行处理、简化数据管理并增强灵活性。例如,可通过SQL按时间或其他维度对数据进行切片。此外,MaxCompute还支持高级切片技术如分区表和分桶表等,进一步加速数据处理速度。掌握这些技术有助于高效应对大数据挑战。
68 0
下一篇
无影云桌面