《大数据、小数据、无数据:网络世界的数据学术》一 3.5 交流融合

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.5节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.5 交流融合

商界、政界和学术界的正式和非正式交流活动正日益融合。企业在主街道和日报上的广告已无法满足其生存需求,他们还需在万维网、社交网络、博客、微博和视频频道上进行宣传。传统意义上,政府必须为省会城市的居民和个别社区提供服务。随着电子政务的发展,政府也必须在网上提供24/7的公共服务。同样,除了领域内文献之外,学者还可以通过网页、预印服务器、数据档案、机构知识库、幻灯片和图表、博客和微博、社交网络及其发明的其他媒介来发挥影响力。新技术加速了新通信方式的产生,但也破坏了现有模式的稳定性。在将旧模式映射为新模式的过程中,数据隐喻成为压垮旧模式的最后一根稻草。

3.5.1 数据隐喻

“数据发表”(data publication)和“发表数据”(publishing data)等隐喻,混淆了出版物和数据在学术交流中的作用。正如第三项挑战阐述的那样,这些隐喻简化的假设前提对新型学术交流模式构成了一定风险。
从严格意义上来讲,发表(publishing)的含义是“使公之于众”(to make public)。因此,其包括多种行为。但是,学术界的发表一般有三个功能:(1)合法化,(2)传播,(3)获取、保存和监护(Borgman 2007)。第一个功能往往通过同行评审完成。记录文件是典型的固定出版物,这类出版物展示了合法化过程,即把同行认可的质量和信任标记授予出版物。引文是合法研究记录的重要组成部分。传播功能的重要性不言而喻。因为只有与其他人交流成果时,研究才真实存在(Meadows 1974,1998)。出版商通过期刊、书籍、会议论文以及其他形式传播研究。作者则通过向同事分发、发布和在会谈、博客、社交网络中提及出版物等方式传播自身作品。第三个功能使作品易获取、易发现,同时确保备份,而且往往还要确保监护副本以供长期使用。后者往往由作者、出版商和图书馆共同负责。由于出版物是招聘、晋升等奖励认可的主要形式,所以学者具备发表作品的动机。
与期刊、图书发表类似,数据发表这一隐喻只有在狭义情况下才有意义。例如,经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)发表了GDP、就业、收入、人口、劳动力、教育、贸易、金融、价格等大量国内和国际统计数据。各种政府机构都会发表普查数据等类似统计数据。学术领域之外的数据发表的含义有所不同,其可以指对包含列表、事实或广告的文档进行分发。自1986年以来,名字含有“数据发表”字样的公司都一直从事于当地电话号码和类似信息的目录编制工作(Data Publishing 2013)。
数据发表这一隐喻在广义范围内并不成立。一般而言,它可以指发表与某篇独立期刊论文相关的数据集。数据可能附属于文章,但很少有单独面向数据的同行评审,因为很难对数据进行评估。如果从这种意义上对数据发表进行理解,那么数据通常归档存储并链接到文章,而非独立的发表单元。我们可以发现或监护数据集,但无法将其作为独立实体进行分发,其本身也无法像期刊论文那样实现自描述。数据发表也包括将数据发表在作者的个人主页上。这种情况下的数据发表并没有发挥出上述“发表”三个功能中的任何一个。某些情况下,该术语也指采集、归档数据并供其他人访问(PANGEA:Data Publisher for Earth & Environmental Science 2013)。我们可以进行数据发现和监护工作,但同行评审和传播都不是大多数数据存档的核心工作。
支持该隐喻的论据是熟练度,即学者均明白如何进行文章的发表和引用。此论据意味着,学者的熟练度将推动数据发表的进一步发展(Crosas et al. 2013;Klump et al.2006;Lawrence et al. 2011;Murphy 2013;Parsons and Fox 2013)。虽然人们经常将这种观点作为事实进行阐述,但却很难找出数据引用推动数据发表的论据。现在有很多出版商对数据进行包装,并将其作为独立单元进行传播。数据发表的隐喻也引起了这些出版商的兴趣,从而进一步扩展了当前的商业模式。
该隐喻的负面论据也很多且依旧存在。呼吁每篇期刊论文都发表数据有一定风险,因为这种情况下的文章和数据集之间建立了二元链接。某些领域存在二元关系且论文可通过数据集进行再现,这些领域的二元映射将进一步服务于社区发展。但就像在第9章中讨论的那样,这样的领域很少且彼此之间相距甚远。庞大知识基础设施是提升这种一一映射方式效率的必备条件,具体包括数据集的同行评审、可用知识库、构建链接的期刊政策和技术、访问所需的软硬件以及重现所需的其他设备。
期刊论文和数据集之间的一一映射关系只是多种可能的关系之一。二者之间的关系一般都是多对多。目前,我们仍然无法在给定出版物的条件下,明确其相关的所有数据和信息资源。从某种程度上来看,直接链接在发现和重现过程中发挥着重要作用。但如果出于其他目的,需要对数据进行挖掘和重用,那么一对一的链接体系结构就会成为重要的限制因素。开放数据运动以多源数据的集成和比较为基础,而这一切都需要开放技术。
帕森斯(Parsons)和福克斯(Fox)(2013)提出了数据管理五大隐喻,他们认为这五个隐喻都存在一定问题且并不完整。“数据发表”就是第一个隐喻。第二个隐喻是“大数据”(big data)或“巨铁”(big iron),指天文学、气候科学和高能物理学等类似领域中,与数据相关的工业生产和工程文化。该隐喻与质量保证、数据简化、版本问题、数据和元数据标准以及高吞吐量等问题相关。“科学支持”(science support)是第三个隐喻,在野外生态学等领域中,存在科学很难从数据中分离出来或者数据采集者很难从数据保管者中分离出来的现象。“地图制作”(map making)是第四个隐喻,具体指地理空间数据,这些数据对气候模型、土地利用、调查等问题的研究非常重要。研究人员最终将这些数据集成在图层中,以地图而非文章或论文的形式进行发表。
“链接数据”(linked data)是最后一个隐喻。其是数据集和出版物的一种链接方式。但同时也是一个更宏大运动的组成部分,该运动将有关联的数据单元、出版物和文档聚集起来。链接数据的概念是语义网的基础。为提高效率,链接数据需要基于组织的图模型展开,同时需要在本体和标准问题上达成一致。相比于数据保存、监护和质量保证,开放数据才是这个观念的核心。

3.5.2 数据单元

数据隐喻对数据传播、引用、使用及监护的单元进行了合理的简化假设。数据的表示单元大小不一,如像素、光子、字符、笔画、字母、单词、电子表的单元格、数据集或者数据档案等。甚至数据集(dataset)这一术语的含义也尚未确定,其常见的主题至少有四个,即聚集、内容、相关性和目标。每个主题之下还包括多种类别(Renear,Sacchi, and Wickett 2010)。数据集的大小从几个比特到多个TB不等,但均可看作独立对象。数据的使用目标决定了数据单元是否合适。有时,聚合多个数据单元有助于数据比较和挖掘工作,但有时候,从大量资源中进行抽样提取反而更有帮助。
印制品是书和期刊论文唯一便捷的交流单元,但现在可以将其分解为更小的单元。编辑人员认真对多篇文章进行集成,从而形成以期为单位的期刊。搜索引擎将文章作为独立实体进行检索,而非某期杂志的一部分。这些文章中的每个表、图和数据集都有标识符,因此,我们可以在研究方法、理论和结论等背景环境之外,对其进行独立检索。书籍、期刊论文以及其他形式的文本可以作为独立数据单元或数据进行聚合,通过词、短语或字符串进行搜索。
随着学术研究内容的不断细化和数据范围的不断扩大,出版等正式交流方式和演讲、会谈等非正式交流方式之间的界限越来越模糊。期刊论文、预印本、手稿、博客帖子、幻灯片、表格、数字、会议视频演示、推文、Facebook和LinkedIn帖子等实体可以独立分发。幻灯片和图片等公开知识库虽然要付费使用,但由于其易存储易获取且含有其他地方很少发布的对象,所以这些知识库依旧十分风靡。数字对象的使用和链接都很灵活,从而推动产生了新型交流方式。例如,当期刊以出版彩色图表(甚至只有电子档)为由索取大量版面费时,作者可以考虑只在期刊上发表黑白版论文,同时通过其他途径存储或发表全彩图片。因为彩图是解释研究发现必不可少的部分,所以,作者们选择了一种可负担得起的方式来满足读者需求。这种做法至少在短期内依旧可行。但单独发布的图表很难进行长期保存,而且图表和论文之间的对应关系也很容易丢失。
上述图表和论文之间对应关系丢失的问题又叫解聚(disaggregation)问题,解决这种问题的一般方法是内容重聚(reaggregation),具体包括重建各部分之间的原始关系以及创建新型聚合关系两方面。可以使用链接数据的方法重构学术价值链,其可以链接文章、数据、文档、协议、预印本、演示文稿等其他单元。这种方法适用于易联网的单元,但并非资源跨系统、跨服务链接的通用方法(Bechhofer et al. 2013;Goble,De Roure,and Bechhofer 2013;Pepe et al. 2010;Van de Sompel et al. 2012)。同理,开放文献的数据挖掘可以识别文本、表格和图片中的数据,却不能识别补充材料或档案中的数据。单一方法不能同时解决解聚、重聚、引用和出版单元等问题(Bourne et al. 2011;Parsons and Fox 2013;Uhlir 2012)。

3.5.3 记录文件

因为学术交流可以分散进行,可以传播,也可以按照新方式重新聚合,所以很难对论据型记录进行维护。参考对象不复存在,实体间的链接断开,搜索算法的发展更具有专有性和机密性。由于同一数据在不同环境中发挥着不同作用,所以数据的稳定性甚至不如出版物。即使经过长期发展,在特定地点和特定时间条件下,出版物依旧是固定单元。作品出版时,都会获得数字对象标识符(Digital Object Identifiers,DOI)、卷期号、页码,以及其他注册号等唯一、稳定的标识符。数据单元获得持久标识符的前提是,在特定时间、版本和格式条件下的含义保持不变。各个具体单元共同构成了庞大的论据链。
文件版本激增并非新问题。《纽约时报》等各大报纸一天就发布多个版本。印刷时代的记录文件是“城市晚报”(the late city edition)。在数字化时代,《纽约时报》面向当地、全国和全球不同读者,同时发布印刷版和电子版。每篇文章的不同版本会有所调整。
印刷时代的记录文件通常比较明确。期刊、会议、出版的图书等都是记录文件。文件一旦以印刷形式出版,就会永久处于已出版状态。参考文献的引文中需要标出所引作品的版本号。读者通过参考文献可以理解作品思想和论据的发展过程。多年之后,他们甚至依旧可以从图书馆、同事或书店那里获得所需作品的稳定副本。现在,如果期刊论文有印刷版的话,那么在印刷版发布前几周或几个月,网上都会有电子版发布。网上的电子版(在线版,online vision)至今还被认为是预览品,而印刷版才是真正的参考文献记录文件。在线版已逐步成为记录文件,DOI正快速取代卷期号和引文所在页码。
数据可以以表征其动态特征的方式进行传播,也可以通过期刊论文等静态形式进行传播,但前者更具优势。例如,《可视化实验期刊》在通过视频展示实验操作的同时,发布同行评审对该实验的评审报告(JoVE: Peer Reviewed Scientific Video Journal 2013)。作者通过3D PDF等交互可视化方式来增强出版物的感染力,使读者在文章中就能旋转天文数据模型(Goodman et al. 2009)。还有很多类似实验正在进行中(De La Flor et al. 2010;Dutton and Jeffreys 2010;Wouters et al. 2012)。
除了期刊、书籍等正式出版物外,研究方法和研究结果也可以通过其他手段进行传播。例如,短视频就是一种展示实验技术的通用方式。其他概念可以通过图纸和旁白进行说明。搜索关于蛋白质组学、微分方程、计量经济学或文本互涉的视频网站时,系统会产生多条免费记录,而且部分记录已被访问过约50万次。作者正通过社交媒体宣传其作品,读者也正使用社交媒体学习新想法、新发现和新技能。推文和博客帖子为学术内容提供了重要的提醒服务。《科学》举办了一个广受欢迎的年度比赛“与PhD共舞”(Dance Your PhD),博士生通过在比赛中提交简短的音乐视频来展示其论文(Bohannon 2013a)。虽然这些资源目前可能仍处于学术发表的边缘,但它们在学者们赖以生存的知识基础设施中正发挥着越来越重要的作用。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
深入探索人工智能与大数据的融合之路
本文旨在探讨人工智能(AI)与大数据技术如何相互促进,共同推动现代科技的进步。通过分析两者结合的必要性、挑战以及未来趋势,为读者提供一个全面的视角,理解这一领域内的最新发展动态及其对行业的影响。文章不仅回顾了历史背景,还展望了未来可能带来的变革,并提出了几点建议以促进更高效的技术整合。
|
16天前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
3天前
|
数据采集 存储 分布式计算
解密大数据:从零开始了解数据海洋
解密大数据:从零开始了解数据海洋
38 17
|
4天前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
6天前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
42 7
|
20天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
1月前
|
存储 安全 网络安全
云计算与网络安全:技术融合的双刃剑
在数字化浪潮中,云计算如同一股不可阻挡的力量,推动着企业和个人用户步入一个高效、便捷的新时代。然而,随之而来的网络安全问题也如影随形,成为制约云计算发展的阿喀琉斯之踵。本文将探讨云计算服务中的网络安全挑战,揭示信息保护的重要性,并提供实用的安全策略,旨在为读者呈现一场技术与安全的较量,同时指出如何在享受云服务带来的便利的同时,确保数据的安全和隐私。
36 6
|
1月前
|
存储 人工智能 安全
云计算与网络安全:技术融合与挑战
在数字化时代的浪潮中,云计算和网络安全已成为推动社会进步的两大关键技术。本文将探讨云计算服务的发展,网络安全的重要性,以及信息安全技术的演进。我们将通过实例分析,揭示云服务如何增强数据保护,网络安全措施如何应对新兴威胁,以及信息安全技术的创新如何为企业带来竞争优势。文章旨在为读者提供对云计算和网络安全领域的深入理解,并展示它们如何共同塑造我们的未来。
|
1月前
|
存储 监控 安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
本文将探讨云计算与网络安全之间的关系,以及它们在云服务、网络安全和信息安全等技术领域中的融合与挑战。我们将分析云计算的优势和风险,以及如何通过网络安全措施来保护数据和应用程序。我们还将讨论如何确保云服务的可用性和可靠性,以及如何处理网络攻击和数据泄露等问题。最后,我们将提供一些关于如何在云计算环境中实现网络安全的建议和最佳实践。
|
1月前
|
SQL 安全 算法
网络安全的盾牌:漏洞防护与加密技术的融合之道
在数字化浪潮中,网络安全成为维护信息完整性、保障个人隐私的关键。本文深入探讨网络漏洞的产生机理和防御策略,揭示加密技术的核心原理及其在信息安全中的重要角色。通过分析安全意识的培养方法,文章旨在提升大众对网络安全的认知水平,促进一个更加安全的网络环境。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等