《大数据、小数据、无数据:网络世界的数据学术》一 3.5 交流融合

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.5节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.5 交流融合

商界、政界和学术界的正式和非正式交流活动正日益融合。企业在主街道和日报上的广告已无法满足其生存需求,他们还需在万维网、社交网络、博客、微博和视频频道上进行宣传。传统意义上,政府必须为省会城市的居民和个别社区提供服务。随着电子政务的发展,政府也必须在网上提供24/7的公共服务。同样,除了领域内文献之外,学者还可以通过网页、预印服务器、数据档案、机构知识库、幻灯片和图表、博客和微博、社交网络及其发明的其他媒介来发挥影响力。新技术加速了新通信方式的产生,但也破坏了现有模式的稳定性。在将旧模式映射为新模式的过程中,数据隐喻成为压垮旧模式的最后一根稻草。

3.5.1 数据隐喻

“数据发表”(data publication)和“发表数据”(publishing data)等隐喻,混淆了出版物和数据在学术交流中的作用。正如第三项挑战阐述的那样,这些隐喻简化的假设前提对新型学术交流模式构成了一定风险。
从严格意义上来讲,发表(publishing)的含义是“使公之于众”(to make public)。因此,其包括多种行为。但是,学术界的发表一般有三个功能:(1)合法化,(2)传播,(3)获取、保存和监护(Borgman 2007)。第一个功能往往通过同行评审完成。记录文件是典型的固定出版物,这类出版物展示了合法化过程,即把同行认可的质量和信任标记授予出版物。引文是合法研究记录的重要组成部分。传播功能的重要性不言而喻。因为只有与其他人交流成果时,研究才真实存在(Meadows 1974,1998)。出版商通过期刊、书籍、会议论文以及其他形式传播研究。作者则通过向同事分发、发布和在会谈、博客、社交网络中提及出版物等方式传播自身作品。第三个功能使作品易获取、易发现,同时确保备份,而且往往还要确保监护副本以供长期使用。后者往往由作者、出版商和图书馆共同负责。由于出版物是招聘、晋升等奖励认可的主要形式,所以学者具备发表作品的动机。
与期刊、图书发表类似,数据发表这一隐喻只有在狭义情况下才有意义。例如,经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)发表了GDP、就业、收入、人口、劳动力、教育、贸易、金融、价格等大量国内和国际统计数据。各种政府机构都会发表普查数据等类似统计数据。学术领域之外的数据发表的含义有所不同,其可以指对包含列表、事实或广告的文档进行分发。自1986年以来,名字含有“数据发表”字样的公司都一直从事于当地电话号码和类似信息的目录编制工作(Data Publishing 2013)。
数据发表这一隐喻在广义范围内并不成立。一般而言,它可以指发表与某篇独立期刊论文相关的数据集。数据可能附属于文章,但很少有单独面向数据的同行评审,因为很难对数据进行评估。如果从这种意义上对数据发表进行理解,那么数据通常归档存储并链接到文章,而非独立的发表单元。我们可以发现或监护数据集,但无法将其作为独立实体进行分发,其本身也无法像期刊论文那样实现自描述。数据发表也包括将数据发表在作者的个人主页上。这种情况下的数据发表并没有发挥出上述“发表”三个功能中的任何一个。某些情况下,该术语也指采集、归档数据并供其他人访问(PANGEA:Data Publisher for Earth & Environmental Science 2013)。我们可以进行数据发现和监护工作,但同行评审和传播都不是大多数数据存档的核心工作。
支持该隐喻的论据是熟练度,即学者均明白如何进行文章的发表和引用。此论据意味着,学者的熟练度将推动数据发表的进一步发展(Crosas et al. 2013;Klump et al.2006;Lawrence et al. 2011;Murphy 2013;Parsons and Fox 2013)。虽然人们经常将这种观点作为事实进行阐述,但却很难找出数据引用推动数据发表的论据。现在有很多出版商对数据进行包装,并将其作为独立单元进行传播。数据发表的隐喻也引起了这些出版商的兴趣,从而进一步扩展了当前的商业模式。
该隐喻的负面论据也很多且依旧存在。呼吁每篇期刊论文都发表数据有一定风险,因为这种情况下的文章和数据集之间建立了二元链接。某些领域存在二元关系且论文可通过数据集进行再现,这些领域的二元映射将进一步服务于社区发展。但就像在第9章中讨论的那样,这样的领域很少且彼此之间相距甚远。庞大知识基础设施是提升这种一一映射方式效率的必备条件,具体包括数据集的同行评审、可用知识库、构建链接的期刊政策和技术、访问所需的软硬件以及重现所需的其他设备。
期刊论文和数据集之间的一一映射关系只是多种可能的关系之一。二者之间的关系一般都是多对多。目前,我们仍然无法在给定出版物的条件下,明确其相关的所有数据和信息资源。从某种程度上来看,直接链接在发现和重现过程中发挥着重要作用。但如果出于其他目的,需要对数据进行挖掘和重用,那么一对一的链接体系结构就会成为重要的限制因素。开放数据运动以多源数据的集成和比较为基础,而这一切都需要开放技术。
帕森斯(Parsons)和福克斯(Fox)(2013)提出了数据管理五大隐喻,他们认为这五个隐喻都存在一定问题且并不完整。“数据发表”就是第一个隐喻。第二个隐喻是“大数据”(big data)或“巨铁”(big iron),指天文学、气候科学和高能物理学等类似领域中,与数据相关的工业生产和工程文化。该隐喻与质量保证、数据简化、版本问题、数据和元数据标准以及高吞吐量等问题相关。“科学支持”(science support)是第三个隐喻,在野外生态学等领域中,存在科学很难从数据中分离出来或者数据采集者很难从数据保管者中分离出来的现象。“地图制作”(map making)是第四个隐喻,具体指地理空间数据,这些数据对气候模型、土地利用、调查等问题的研究非常重要。研究人员最终将这些数据集成在图层中,以地图而非文章或论文的形式进行发表。
“链接数据”(linked data)是最后一个隐喻。其是数据集和出版物的一种链接方式。但同时也是一个更宏大运动的组成部分,该运动将有关联的数据单元、出版物和文档聚集起来。链接数据的概念是语义网的基础。为提高效率,链接数据需要基于组织的图模型展开,同时需要在本体和标准问题上达成一致。相比于数据保存、监护和质量保证,开放数据才是这个观念的核心。

3.5.2 数据单元

数据隐喻对数据传播、引用、使用及监护的单元进行了合理的简化假设。数据的表示单元大小不一,如像素、光子、字符、笔画、字母、单词、电子表的单元格、数据集或者数据档案等。甚至数据集(dataset)这一术语的含义也尚未确定,其常见的主题至少有四个,即聚集、内容、相关性和目标。每个主题之下还包括多种类别(Renear,Sacchi, and Wickett 2010)。数据集的大小从几个比特到多个TB不等,但均可看作独立对象。数据的使用目标决定了数据单元是否合适。有时,聚合多个数据单元有助于数据比较和挖掘工作,但有时候,从大量资源中进行抽样提取反而更有帮助。
印制品是书和期刊论文唯一便捷的交流单元,但现在可以将其分解为更小的单元。编辑人员认真对多篇文章进行集成,从而形成以期为单位的期刊。搜索引擎将文章作为独立实体进行检索,而非某期杂志的一部分。这些文章中的每个表、图和数据集都有标识符,因此,我们可以在研究方法、理论和结论等背景环境之外,对其进行独立检索。书籍、期刊论文以及其他形式的文本可以作为独立数据单元或数据进行聚合,通过词、短语或字符串进行搜索。
随着学术研究内容的不断细化和数据范围的不断扩大,出版等正式交流方式和演讲、会谈等非正式交流方式之间的界限越来越模糊。期刊论文、预印本、手稿、博客帖子、幻灯片、表格、数字、会议视频演示、推文、Facebook和LinkedIn帖子等实体可以独立分发。幻灯片和图片等公开知识库虽然要付费使用,但由于其易存储易获取且含有其他地方很少发布的对象,所以这些知识库依旧十分风靡。数字对象的使用和链接都很灵活,从而推动产生了新型交流方式。例如,当期刊以出版彩色图表(甚至只有电子档)为由索取大量版面费时,作者可以考虑只在期刊上发表黑白版论文,同时通过其他途径存储或发表全彩图片。因为彩图是解释研究发现必不可少的部分,所以,作者们选择了一种可负担得起的方式来满足读者需求。这种做法至少在短期内依旧可行。但单独发布的图表很难进行长期保存,而且图表和论文之间的对应关系也很容易丢失。
上述图表和论文之间对应关系丢失的问题又叫解聚(disaggregation)问题,解决这种问题的一般方法是内容重聚(reaggregation),具体包括重建各部分之间的原始关系以及创建新型聚合关系两方面。可以使用链接数据的方法重构学术价值链,其可以链接文章、数据、文档、协议、预印本、演示文稿等其他单元。这种方法适用于易联网的单元,但并非资源跨系统、跨服务链接的通用方法(Bechhofer et al. 2013;Goble,De Roure,and Bechhofer 2013;Pepe et al. 2010;Van de Sompel et al. 2012)。同理,开放文献的数据挖掘可以识别文本、表格和图片中的数据,却不能识别补充材料或档案中的数据。单一方法不能同时解决解聚、重聚、引用和出版单元等问题(Bourne et al. 2011;Parsons and Fox 2013;Uhlir 2012)。

3.5.3 记录文件

因为学术交流可以分散进行,可以传播,也可以按照新方式重新聚合,所以很难对论据型记录进行维护。参考对象不复存在,实体间的链接断开,搜索算法的发展更具有专有性和机密性。由于同一数据在不同环境中发挥着不同作用,所以数据的稳定性甚至不如出版物。即使经过长期发展,在特定地点和特定时间条件下,出版物依旧是固定单元。作品出版时,都会获得数字对象标识符(Digital Object Identifiers,DOI)、卷期号、页码,以及其他注册号等唯一、稳定的标识符。数据单元获得持久标识符的前提是,在特定时间、版本和格式条件下的含义保持不变。各个具体单元共同构成了庞大的论据链。
文件版本激增并非新问题。《纽约时报》等各大报纸一天就发布多个版本。印刷时代的记录文件是“城市晚报”(the late city edition)。在数字化时代,《纽约时报》面向当地、全国和全球不同读者,同时发布印刷版和电子版。每篇文章的不同版本会有所调整。
印刷时代的记录文件通常比较明确。期刊、会议、出版的图书等都是记录文件。文件一旦以印刷形式出版,就会永久处于已出版状态。参考文献的引文中需要标出所引作品的版本号。读者通过参考文献可以理解作品思想和论据的发展过程。多年之后,他们甚至依旧可以从图书馆、同事或书店那里获得所需作品的稳定副本。现在,如果期刊论文有印刷版的话,那么在印刷版发布前几周或几个月,网上都会有电子版发布。网上的电子版(在线版,online vision)至今还被认为是预览品,而印刷版才是真正的参考文献记录文件。在线版已逐步成为记录文件,DOI正快速取代卷期号和引文所在页码。
数据可以以表征其动态特征的方式进行传播,也可以通过期刊论文等静态形式进行传播,但前者更具优势。例如,《可视化实验期刊》在通过视频展示实验操作的同时,发布同行评审对该实验的评审报告(JoVE: Peer Reviewed Scientific Video Journal 2013)。作者通过3D PDF等交互可视化方式来增强出版物的感染力,使读者在文章中就能旋转天文数据模型(Goodman et al. 2009)。还有很多类似实验正在进行中(De La Flor et al. 2010;Dutton and Jeffreys 2010;Wouters et al. 2012)。
除了期刊、书籍等正式出版物外,研究方法和研究结果也可以通过其他手段进行传播。例如,短视频就是一种展示实验技术的通用方式。其他概念可以通过图纸和旁白进行说明。搜索关于蛋白质组学、微分方程、计量经济学或文本互涉的视频网站时,系统会产生多条免费记录,而且部分记录已被访问过约50万次。作者正通过社交媒体宣传其作品,读者也正使用社交媒体学习新想法、新发现和新技能。推文和博客帖子为学术内容提供了重要的提醒服务。《科学》举办了一个广受欢迎的年度比赛“与PhD共舞”(Dance Your PhD),博士生通过在比赛中提交简短的音乐视频来展示其论文(Bohannon 2013a)。虽然这些资源目前可能仍处于学术发表的边缘,但它们在学者们赖以生存的知识基础设施中正发挥着越来越重要的作用。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
13天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与信息保障
在当今信息化时代,云计算技术作为信息技术领域的重要组成部分,与网络安全息息相关。本文从云服务架构、网络安全挑战、以及信息安全保障等角度出发,探讨了云计算与网络安全的紧密关系及其技术融合的重要性。通过分析当前技术趋势和挑战,提出了一些应对策略和未来发展方向,旨在为技术专业人士及相关从业者提供深入的思考和参考。【7月更文挑战第4天】
20 0
|
9天前
|
数据采集 自然语言处理 大数据
​「Python大数据」词频数据渲染词云图导出HTML
使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。
33 1
​「Python大数据」词频数据渲染词云图导出HTML
|
2天前
|
人工智能 安全 网络安全
云计算与网络安全:技术融合与挑战探索
【7月更文挑战第15天】在数字化浪潮的推动下,云计算服务已成为企业信息技术架构的核心。然而,随着云服务的广泛应用,网络安全问题亦随之凸显,成为制约其发展的关键因素。本文旨在探讨云计算与网络安全的技术融合点与面临的挑战,分析信息安全在云环境中的实践策略,并展望未来技术的发展趋势。通过对现有文献的综合分析与实际案例研究,文章揭示了云服务模型、网络安全框架及信息安全措施之间的相互作用,为读者提供了一幅云计算与网络安全交织的全景图。
|
3天前
|
机器学习/深度学习 安全 网络安全
云计算与网络安全:技术融合的未来
【7月更文挑战第14天】在数字化浪潮的推动下,云计算已成为现代信息技术的核心。然而,伴随其快速发展的同时,网络安全问题也日益凸显。本文将深入探讨云计算服务中的网络安全挑战,并分析信息安全技术如何为云环境提供保护。通过案例分析和最新研究,我们将揭示云计算和网络安全之间的协同效应,以及它们如何共同塑造未来的技术景观。
|
4天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
【7月更文挑战第13天】在当今信息化社会,云计算作为一种新兴的技术,为我们的生活带来了诸多便利。然而,随之而来的网络安全问题也日益凸显。本文将从云服务、网络安全、信息安全等方面,探讨云计算在带来便利的同时,如何应对网络安全的挑战。
|
6天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
随着信息技术的飞速发展,云计算已成为企业和个人存储、处理数据的首选方式。然而,随之而来的网络安全问题也日益凸显。本文将深入探讨云计算环境下的网络安全挑战,分析云服务模型中的安全风险,并提出相应的信息安全策略。通过对比传统网络环境与云计算环境的安全差异,揭示云计算特有的安全威胁,并讨论如何通过技术和政策手段加强安全防护。文章旨在为读者提供云计算与网络安全交叉领域的全面视角,促进更安全的云计算应用环境的构建。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:深度学习与神经网络的融合
【7月更文挑战第11天】随着科技的不断进步,人工智能(AI)领域正迎来前所未有的发展机遇。本文将深入探讨深度学习和神经网络这两大技术如何相互融合,共同推动AI的未来走向。我们将从基础概念出发,逐步解析它们在实际应用中的协同效应,并预测未来可能的发展趋势。
|
9天前
|
编解码 计算机视觉 网络架构
【YOLOv10改进- 特征融合NECK】BiFPN:加权双向特征金字塔网络
YOLOv10专栏探讨了目标检测的效率提升,提出BiFPN,一种带加权和自适应融合的双向特征金字塔网络,优化了多尺度信息传递。EfficientDet系列利用这些创新在效率与性能间取得更好平衡,D7模型在COCO测试集上达到55.1 AP。YOLOv8引入MPDIoU,结合BiFPN学习分支权重,提高检测精度。详情见[YOLOv10 创新改进](https://blog.csdn.net/shangyanaf/category_12712258.html)和相关文章。
|
8天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【7月更文挑战第9天】在数字化时代,云计算已成为推动企业创新和效率的关键因素。然而,随着云服务的广泛应用,网络安全问题也日益凸显。本文将深入探讨云计算环境下的网络安全挑战,分析云服务中的安全风险,并提出相应的信息安全策略。通过案例分析,我们将揭示如何通过技术手段和管理措施来增强云环境的安全性,以保障数据的安全和隐私。
|
8天前
|
机器学习/深度学习 安全 网络安全
云计算与网络安全:技术融合的未来展望
【7月更文挑战第9天】 随着数字化转型的不断加速,云计算已成为现代企业不可或缺的技术支柱。然而,云服务的广泛应用也带来了前所未有的网络安全挑战。本文将探讨云计算环境中的主要安全威胁,分析当前云服务供应商的安全措施,并预测信息安全技术在云计算领域的未来发展方向。通过深度剖析,本文旨在为读者提供对云计算和网络安全交叉点上的全面理解,以及如何在这个快速变化的领域中保持安全的见解。