《大数据、小数据、无数据:网络世界的数据学术》一 3.5 交流融合

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.5节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.5 交流融合

商界、政界和学术界的正式和非正式交流活动正日益融合。企业在主街道和日报上的广告已无法满足其生存需求,他们还需在万维网、社交网络、博客、微博和视频频道上进行宣传。传统意义上,政府必须为省会城市的居民和个别社区提供服务。随着电子政务的发展,政府也必须在网上提供24/7的公共服务。同样,除了领域内文献之外,学者还可以通过网页、预印服务器、数据档案、机构知识库、幻灯片和图表、博客和微博、社交网络及其发明的其他媒介来发挥影响力。新技术加速了新通信方式的产生,但也破坏了现有模式的稳定性。在将旧模式映射为新模式的过程中,数据隐喻成为压垮旧模式的最后一根稻草。

3.5.1 数据隐喻

“数据发表”(data publication)和“发表数据”(publishing data)等隐喻,混淆了出版物和数据在学术交流中的作用。正如第三项挑战阐述的那样,这些隐喻简化的假设前提对新型学术交流模式构成了一定风险。
从严格意义上来讲,发表(publishing)的含义是“使公之于众”(to make public)。因此,其包括多种行为。但是,学术界的发表一般有三个功能:(1)合法化,(2)传播,(3)获取、保存和监护(Borgman 2007)。第一个功能往往通过同行评审完成。记录文件是典型的固定出版物,这类出版物展示了合法化过程,即把同行认可的质量和信任标记授予出版物。引文是合法研究记录的重要组成部分。传播功能的重要性不言而喻。因为只有与其他人交流成果时,研究才真实存在(Meadows 1974,1998)。出版商通过期刊、书籍、会议论文以及其他形式传播研究。作者则通过向同事分发、发布和在会谈、博客、社交网络中提及出版物等方式传播自身作品。第三个功能使作品易获取、易发现,同时确保备份,而且往往还要确保监护副本以供长期使用。后者往往由作者、出版商和图书馆共同负责。由于出版物是招聘、晋升等奖励认可的主要形式,所以学者具备发表作品的动机。
与期刊、图书发表类似,数据发表这一隐喻只有在狭义情况下才有意义。例如,经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)发表了GDP、就业、收入、人口、劳动力、教育、贸易、金融、价格等大量国内和国际统计数据。各种政府机构都会发表普查数据等类似统计数据。学术领域之外的数据发表的含义有所不同,其可以指对包含列表、事实或广告的文档进行分发。自1986年以来,名字含有“数据发表”字样的公司都一直从事于当地电话号码和类似信息的目录编制工作(Data Publishing 2013)。
数据发表这一隐喻在广义范围内并不成立。一般而言,它可以指发表与某篇独立期刊论文相关的数据集。数据可能附属于文章,但很少有单独面向数据的同行评审,因为很难对数据进行评估。如果从这种意义上对数据发表进行理解,那么数据通常归档存储并链接到文章,而非独立的发表单元。我们可以发现或监护数据集,但无法将其作为独立实体进行分发,其本身也无法像期刊论文那样实现自描述。数据发表也包括将数据发表在作者的个人主页上。这种情况下的数据发表并没有发挥出上述“发表”三个功能中的任何一个。某些情况下,该术语也指采集、归档数据并供其他人访问(PANGEA:Data Publisher for Earth & Environmental Science 2013)。我们可以进行数据发现和监护工作,但同行评审和传播都不是大多数数据存档的核心工作。
支持该隐喻的论据是熟练度,即学者均明白如何进行文章的发表和引用。此论据意味着,学者的熟练度将推动数据发表的进一步发展(Crosas et al. 2013;Klump et al.2006;Lawrence et al. 2011;Murphy 2013;Parsons and Fox 2013)。虽然人们经常将这种观点作为事实进行阐述,但却很难找出数据引用推动数据发表的论据。现在有很多出版商对数据进行包装,并将其作为独立单元进行传播。数据发表的隐喻也引起了这些出版商的兴趣,从而进一步扩展了当前的商业模式。
该隐喻的负面论据也很多且依旧存在。呼吁每篇期刊论文都发表数据有一定风险,因为这种情况下的文章和数据集之间建立了二元链接。某些领域存在二元关系且论文可通过数据集进行再现,这些领域的二元映射将进一步服务于社区发展。但就像在第9章中讨论的那样,这样的领域很少且彼此之间相距甚远。庞大知识基础设施是提升这种一一映射方式效率的必备条件,具体包括数据集的同行评审、可用知识库、构建链接的期刊政策和技术、访问所需的软硬件以及重现所需的其他设备。
期刊论文和数据集之间的一一映射关系只是多种可能的关系之一。二者之间的关系一般都是多对多。目前,我们仍然无法在给定出版物的条件下,明确其相关的所有数据和信息资源。从某种程度上来看,直接链接在发现和重现过程中发挥着重要作用。但如果出于其他目的,需要对数据进行挖掘和重用,那么一对一的链接体系结构就会成为重要的限制因素。开放数据运动以多源数据的集成和比较为基础,而这一切都需要开放技术。
帕森斯(Parsons)和福克斯(Fox)(2013)提出了数据管理五大隐喻,他们认为这五个隐喻都存在一定问题且并不完整。“数据发表”就是第一个隐喻。第二个隐喻是“大数据”(big data)或“巨铁”(big iron),指天文学、气候科学和高能物理学等类似领域中,与数据相关的工业生产和工程文化。该隐喻与质量保证、数据简化、版本问题、数据和元数据标准以及高吞吐量等问题相关。“科学支持”(science support)是第三个隐喻,在野外生态学等领域中,存在科学很难从数据中分离出来或者数据采集者很难从数据保管者中分离出来的现象。“地图制作”(map making)是第四个隐喻,具体指地理空间数据,这些数据对气候模型、土地利用、调查等问题的研究非常重要。研究人员最终将这些数据集成在图层中,以地图而非文章或论文的形式进行发表。
“链接数据”(linked data)是最后一个隐喻。其是数据集和出版物的一种链接方式。但同时也是一个更宏大运动的组成部分,该运动将有关联的数据单元、出版物和文档聚集起来。链接数据的概念是语义网的基础。为提高效率,链接数据需要基于组织的图模型展开,同时需要在本体和标准问题上达成一致。相比于数据保存、监护和质量保证,开放数据才是这个观念的核心。

3.5.2 数据单元

数据隐喻对数据传播、引用、使用及监护的单元进行了合理的简化假设。数据的表示单元大小不一,如像素、光子、字符、笔画、字母、单词、电子表的单元格、数据集或者数据档案等。甚至数据集(dataset)这一术语的含义也尚未确定,其常见的主题至少有四个,即聚集、内容、相关性和目标。每个主题之下还包括多种类别(Renear,Sacchi, and Wickett 2010)。数据集的大小从几个比特到多个TB不等,但均可看作独立对象。数据的使用目标决定了数据单元是否合适。有时,聚合多个数据单元有助于数据比较和挖掘工作,但有时候,从大量资源中进行抽样提取反而更有帮助。
印制品是书和期刊论文唯一便捷的交流单元,但现在可以将其分解为更小的单元。编辑人员认真对多篇文章进行集成,从而形成以期为单位的期刊。搜索引擎将文章作为独立实体进行检索,而非某期杂志的一部分。这些文章中的每个表、图和数据集都有标识符,因此,我们可以在研究方法、理论和结论等背景环境之外,对其进行独立检索。书籍、期刊论文以及其他形式的文本可以作为独立数据单元或数据进行聚合,通过词、短语或字符串进行搜索。
随着学术研究内容的不断细化和数据范围的不断扩大,出版等正式交流方式和演讲、会谈等非正式交流方式之间的界限越来越模糊。期刊论文、预印本、手稿、博客帖子、幻灯片、表格、数字、会议视频演示、推文、Facebook和LinkedIn帖子等实体可以独立分发。幻灯片和图片等公开知识库虽然要付费使用,但由于其易存储易获取且含有其他地方很少发布的对象,所以这些知识库依旧十分风靡。数字对象的使用和链接都很灵活,从而推动产生了新型交流方式。例如,当期刊以出版彩色图表(甚至只有电子档)为由索取大量版面费时,作者可以考虑只在期刊上发表黑白版论文,同时通过其他途径存储或发表全彩图片。因为彩图是解释研究发现必不可少的部分,所以,作者们选择了一种可负担得起的方式来满足读者需求。这种做法至少在短期内依旧可行。但单独发布的图表很难进行长期保存,而且图表和论文之间的对应关系也很容易丢失。
上述图表和论文之间对应关系丢失的问题又叫解聚(disaggregation)问题,解决这种问题的一般方法是内容重聚(reaggregation),具体包括重建各部分之间的原始关系以及创建新型聚合关系两方面。可以使用链接数据的方法重构学术价值链,其可以链接文章、数据、文档、协议、预印本、演示文稿等其他单元。这种方法适用于易联网的单元,但并非资源跨系统、跨服务链接的通用方法(Bechhofer et al. 2013;Goble,De Roure,and Bechhofer 2013;Pepe et al. 2010;Van de Sompel et al. 2012)。同理,开放文献的数据挖掘可以识别文本、表格和图片中的数据,却不能识别补充材料或档案中的数据。单一方法不能同时解决解聚、重聚、引用和出版单元等问题(Bourne et al. 2011;Parsons and Fox 2013;Uhlir 2012)。

3.5.3 记录文件

因为学术交流可以分散进行,可以传播,也可以按照新方式重新聚合,所以很难对论据型记录进行维护。参考对象不复存在,实体间的链接断开,搜索算法的发展更具有专有性和机密性。由于同一数据在不同环境中发挥着不同作用,所以数据的稳定性甚至不如出版物。即使经过长期发展,在特定地点和特定时间条件下,出版物依旧是固定单元。作品出版时,都会获得数字对象标识符(Digital Object Identifiers,DOI)、卷期号、页码,以及其他注册号等唯一、稳定的标识符。数据单元获得持久标识符的前提是,在特定时间、版本和格式条件下的含义保持不变。各个具体单元共同构成了庞大的论据链。
文件版本激增并非新问题。《纽约时报》等各大报纸一天就发布多个版本。印刷时代的记录文件是“城市晚报”(the late city edition)。在数字化时代,《纽约时报》面向当地、全国和全球不同读者,同时发布印刷版和电子版。每篇文章的不同版本会有所调整。
印刷时代的记录文件通常比较明确。期刊、会议、出版的图书等都是记录文件。文件一旦以印刷形式出版,就会永久处于已出版状态。参考文献的引文中需要标出所引作品的版本号。读者通过参考文献可以理解作品思想和论据的发展过程。多年之后,他们甚至依旧可以从图书馆、同事或书店那里获得所需作品的稳定副本。现在,如果期刊论文有印刷版的话,那么在印刷版发布前几周或几个月,网上都会有电子版发布。网上的电子版(在线版,online vision)至今还被认为是预览品,而印刷版才是真正的参考文献记录文件。在线版已逐步成为记录文件,DOI正快速取代卷期号和引文所在页码。
数据可以以表征其动态特征的方式进行传播,也可以通过期刊论文等静态形式进行传播,但前者更具优势。例如,《可视化实验期刊》在通过视频展示实验操作的同时,发布同行评审对该实验的评审报告(JoVE: Peer Reviewed Scientific Video Journal 2013)。作者通过3D PDF等交互可视化方式来增强出版物的感染力,使读者在文章中就能旋转天文数据模型(Goodman et al. 2009)。还有很多类似实验正在进行中(De La Flor et al. 2010;Dutton and Jeffreys 2010;Wouters et al. 2012)。
除了期刊、书籍等正式出版物外,研究方法和研究结果也可以通过其他手段进行传播。例如,短视频就是一种展示实验技术的通用方式。其他概念可以通过图纸和旁白进行说明。搜索关于蛋白质组学、微分方程、计量经济学或文本互涉的视频网站时,系统会产生多条免费记录,而且部分记录已被访问过约50万次。作者正通过社交媒体宣传其作品,读者也正使用社交媒体学习新想法、新发现和新技能。推文和博客帖子为学术内容提供了重要的提醒服务。《科学》举办了一个广受欢迎的年度比赛“与PhD共舞”(Dance Your PhD),博士生通过在比赛中提交简短的音乐视频来展示其论文(Bohannon 2013a)。虽然这些资源目前可能仍处于学术发表的边缘,但它们在学者们赖以生存的知识基础设施中正发挥着越来越重要的作用。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
存储 安全 网络安全
云计算与网络安全:技术融合下的信息安全新挑战
【9月更文挑战第29天】在数字化浪潮的推动下,云计算服务如雨后春笋般涌现,为各行各业提供了前所未有的便利和效率。然而,随着数据和服务的云端化,网络安全问题也日益凸显,成为制约云计算发展的关键因素之一。本文将从技术角度出发,探讨云计算环境下网络安全的重要性,分析云服务中存在的安全风险,并提出相应的防护措施。我们将通过实际案例,揭示如何在享受云计算带来的便捷的同时,确保数据的安全性和完整性。
|
11天前
|
SQL 安全 网络安全
云计算与网络安全:技术融合的双刃剑
【9月更文挑战第24天】在数字化时代,云计算如同一把双刃剑,既提供了前所未有的便利和效率,也带来了新的挑战。本文将深入探讨云计算在提升企业竞争力的同时,如何应对网络安全这一日益严峻的问题。我们将从云服务的基础架构出发,分析其潜在的安全漏洞,并结合最新的信息安全技术,提出一系列创新的解决策略。通过这些策略的实施,我们旨在实现云计算环境下的数据保护、访问控制和威胁监测,从而确保企业在享受云计算带来的红利的同时,能够有效地管理和降低网络安全风险。
|
2天前
|
存储 安全 网络安全
云计算与网络安全:技术融合下的安全挑战与机遇
【9月更文挑战第33天】随着云计算技术的飞速发展,企业和个人越来越依赖于云服务来处理和存储数据。然而,这也带来了前所未有的网络安全威胁。本文将探讨云计算环境下的网络安全挑战,包括数据泄露、身份盗用等,并讨论如何通过加强访问控制、使用加密技术和实施安全策略来保护信息安全。文章还将分享一些实际的代码示例,帮助读者更好地理解和应用这些安全措施。
99 70
|
2天前
|
安全 网络安全 区块链
云计算与网络安全的融合之路
【9月更文挑战第33天】在数字化浪潮中,云计算成为推动企业创新和效率提升的关键力量。然而,随着云服务的广泛应用,网络安全问题也日益凸显。本文将探讨云计算环境下的网络安全挑战,分析信息安全的最佳实践,并展示如何通过技术手段加强数据保护。我们将从云服务的基本概念出发,逐步深入到网络安全的核心问题,最后通过一个代码示例,具体说明如何在云计算环境中实现安全控制。文章旨在为读者提供一条清晰的路径,以理解和应对云计算与网络安全交织的复杂局面。
|
7天前
|
人工智能 安全 网络安全
云计算与网络安全的融合:挑战与机遇
【9月更文挑战第28天】随着云计算技术的飞速发展,越来越多的企业和个人选择将数据和服务迁移到云端。然而,云计算的便利性背后隐藏着诸多网络安全风险。本文将探讨云计算与网络安全之间的关系,包括云服务的安全性、网络攻击的演变以及信息安全的最佳实践。我们将通过实际案例和统计数据来揭示当前云计算环境下的安全现状,并提供一些实用的建议来帮助企业和个人提高他们的网络安全防御能力。
|
4天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【9月更文挑战第31天】在数字化浪潮的推动下,云计算已成为企业和个人数据存储、处理的强大工具。然而,随之而来的网络安全问题也日益凸显,成为制约云服务发展的关键因素。本文将探讨云计算环境下的网络安全挑战,分析常见的网络攻击类型,并提出相应的防御策略。通过深入浅出的讲解,旨在提高公众对云计算环境下网络安全的认识,促进更安全的云服务使用。
|
5天前
|
云安全 安全 网络安全
云计算与网络安全的融合
在当今数字化时代,云计算和网络安全已成为企业运营的核心组成部分。本文深入探讨了云计算与网络安全的紧密联系,强调了在享受云服务带来的便利性的同时,确保数据安全和系统稳定的重要性。通过分析当前的技术趋势、面临的挑战以及未来发展方向,本文旨在为读者提供对这一复杂主题的全面理解。
|
6天前
|
机器学习/深度学习 安全 网络安全
云计算与网络安全的融合:构建安全高效的云服务体系
本文深入探讨了云计算与网络安全之间的紧密联系,特别是在云服务、网络安全和信息安全等关键技术领域。随着云计算技术的迅猛发展,数据安全成为企业和组织面临的主要挑战之一。通过分析当前云服务中的安全漏洞和威胁,本文提出了一系列增强云计算环境安全性的策略和技术措施,包括加密技术、访问控制、身份验证以及安全审计等。此外,还讨论了未来云计算和网络安全技术的发展趋势,强调了技术创新在提高数据处理效率和保护信息安全中的重要性。
|
4天前
|
安全 网络安全 云计算
云计算与网络安全:技术融合与挑战分析
【9月更文挑战第31天】本文将深入探讨云计算和网络安全之间的关系,包括云服务、网络安全、信息安全等技术领域。我们将从云计算的基本概念和特性出发,分析其在网络安全方面的优势和挑战,并探讨如何通过技术和策略来提高云计算的安全性。同时,我们也将讨论网络安全在云计算环境下的重要性,以及如何通过有效的安全措施来保护云服务的安全。最后,我们将通过代码示例来展示如何在云计算环境中实现网络安全。
13 3
|
13天前
|
监控 安全 网络安全
云计算与网络安全:技术融合的未来
【9月更文挑战第22天】在数字化浪潮的推动下,云计算已成为现代企业不可或缺的技术支柱。然而,随之而来的网络安全挑战也日益严峻。本文将探讨云计算环境下的网络安全问题,并提出相应的解决方案,以期为读者提供实用的技术指导和安全建议。

热门文章

最新文章

下一篇
无影云桌面