《大数据、小数据、无数据:网络世界的数据学术》一 3.3 社会与技术

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.3节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 社会与技术

社会与技术之间的密切关系是数据学术的重要组成部分。由于各关系具有反身性且相互作用,因此彼此之间很难进行分割。现有工具使数据创造成为可能,但工具发挥作用的前提是知道采集何种数据。与其尝试解决那些长期存在的争论,不如假设学术研究的社会和技术两个方面不可分割。数据与工具之间相辅相成,缺一不可。二者的涵义蕴含于彼此之间的关系中(Bijker,Hughes,and Pinch 1987;Bijker 1995;Hughes 1989,2004;Latour and Woolgar 1979;Latour 1987,1988,1993;Meyer and Schroeder 2014;Schroeder 2007)。
布鲁诺·拉图尔(Bruno Latour,1987)创造了技性科学(technoscience)一词,用于说明科学实践与技术的结合方式。拉图尔从哲学视角出发,认为科学一词应当包含大多数形式的学术研究。在北美地区,科学常常不同于社会科学和人文学科。在工程、医学、法律和教育等领域,科学也可以依据专业知识进一步分类。虽然这对划清学术部门等机构的边界具有一定作用,但由于知识和学术的存在,这种划分方法略显武断。本书中的科学一词有时也泛指学术知识和实践。因此,这里的案例分析以学科为单位展开,即包括自然科学、社会科学和人文学科。
在数据日益引起关注的大背景下,科学的历史和哲学问题层出不穷。科学是一项昂贵的公共投资。自第二次世界大战以来,特别是自冷战结束以后,公众要求建立更多问责制、对研究方向有更多发言权以及获得更多研究成果等权利(Kwa 2011;Latour 2004)。随着科学事业和公众之间关系的转变,社会科学家更渴望研究学术工作。自然科学家和其他学者也更愿意成为研究对象,他们希望能借此表达自己的想法,同时可以从外部对其工作的研究中获益(Salk 1986)。从20世纪50年代初开始,越来越多的学术工作专注于研究科学和技术的历史、哲学和社会等方面(Hackett et al. 2007;Latour and Woolgar 1986;Lievrouw and Livingstone 2002;van Raan 1988;Woolgar 1988)。这种方式同时推动了社会科学和人文学科的学术实践研究(Borgman 2009;Case 2006;De La Flor et al. 2010;Friedlander 2009;Jirotka et al. 2006;Wouters et al. 2012)。

3.3.1 社区与协作

数据的政策、实践、标准和基础设施往往涉及与数据相关的社区。数据管理计划就是一个典型例子,即“此类数据的组成部分取决于利益共同体的同行评审和项目管理”(National Science Foundation 2010a)。无独有偶,数字档案政策就是在“特定社区”(designated community)(Consultative Committee for Space Data Systems 2012)前提下制定的。数据往往是通过微妙差异对领域进行分界的“边界对象”(boundary object)(Star and Griesemer 1989)。研究过数据在协作中的作用后,社区的边界、范围、一致性和非一致性便呼之欲出了。
数据的采集、创造、分析、解释和管理等需要对应研究领域的专业知识,如理论和实践以及社会和技术等各类型的专业知识。其中的部分专业知识很容易教授或可以从书籍、期刊和文献中学到,但大部分都是难以描述却根深蒂固的知识。后者中,最闻名的是“隐性知识”,这个概念本身就很复杂。这种专业知识在数据挖掘中发挥着重要作用,但往往最难实现跨社区和跨情景迁移(Agre 1994;Collins and Evans 2007;Darch et al. 2010;Duguid 2005;Polanyi 1966;Schmidt 2012)。
社区(community)是社会科学中著名的理论概念。在围绕科学和学术展开的社会研究中,实践社群(communities of practice)和认知文化(epistemic culture)是其核心思想。实践社群这一概念由雷夫(Lave)和威戈(Wenger)提出并得到广泛研究和发展,主要用于描述群体中的知识学习和共享行为(Osterlund and Carlile 2005)。相反,认知文化既不是学科也不是社区(Knorr-Cetina 1999),其更像是一组与知识构建过程相关的“制度安排和机制”(arrangements and mechanisms)以及个人、社区、人工产品和技术等(Van House 2004)。实践社群和认知文化的共同点在于知识的情景化和本地性。南希·范豪斯(Nancy Van House 2004,40)对此观点进行了简单总结:“没有‘无源之见’,即知识总是与特定场景、时间、条件、实践和理解相关。没有单一的知识,只有多元化的知识。”

3.3.2 知识与表示

虽然人们进行了很多数据商品化的工作,但其只有在成为能吸引和转移注意力的热点话题时,才是“明亮的光源”(Schrier 2011;Starke 2013)。随着研究领域、学科和专业等文化的长期演变,信号、记录、笔记、观察结果、标本以及其他实体开始被视为数据。科学实践的相关文献叫作“说明册”(inscription)(Latour and Woolgar 1979,1986;Latour 1988;Lynch and Woolgar 1988a,1988b)。各领域的数据文档、描述和表示形式各异。数据通用表示方法有元数据、标记语言、格式、标签、命名空间、词典、本体等,这些方法有助于实现领域内数据交换。通用表示形式可以对社区边界进行定义。对那些具有多种数据表示方法的领域而言,这些边界也可能成为实现跨领域数据迁移的障碍。疾病、药物、植物、动物和现象等领域名字各异。多源数据的组合能力取决于相关说明册。
数据、论证标准、表示形式和研究实践之间的关系错综复杂。只有在尝试使用或组合外部数据源、协作以及把一个社区的实践方法运用于另一个社区时,社区之间的差异才很明显。正如第二项挑战所述,实现知识的跨情景和跨时间迁移绝非易事。因为数据的具体涵义取决于外围设备,即软件、硬件、方法、文档、出版物等,所以,与其他知识形式相比,实现数据的跨情景、跨时间迁移只会难上加难,甚至是最难的。
期刊论文、会议论文、书籍以及其他各类出版物都是信息合集,作为独立单元,它们为专业读者甚至更广大的群体所接受。它们是学术知识的表示形式,且往往包括便于传播、发现和交换的数据表示形式。几个世纪以来,学术出版物的表示形式不断发展演变。当前学术书籍的组成部分包括标题页、著作权声明、目录、索引以及其他特征,这些特征并非一蹴而就,而是逐步发展起来的。其中的部分特征(如责任声明)已经从书籍迁移到文章。1665年,这种用法最早出现在第一批学术期刊中,如巴黎的《学者杂志》和伦敦的《英国皇家学会期刊》。从那时起,以学术发表为中心的知识基础设施逐渐扩展。出版商、同行评审、书目资讯、索引和摘要服务、信息检索系统以及期刊影响因子等评价指标都是知识基础设施的组成部分,具体内容见第9章。

3.3.3 理论、实践与政策

数据学术是位于理论、实践和政策范围之外的概念。在微观层面上,数据政策是研究人员针对数据展开的一系列选择,例如,如何看待数据,保存、监护何种数据,在何时、与何人实现数据共享,何时存储何种数据以及存储多久。从宏观角度来看,数据政策是政府和资助机构的一系列选择,例如,何为数据,要求研究人员保存何种数据,何时、如何、向谁公开何种数据,要求何人在多长时限内保管何种数据,如何在基金申请书、奖励制度中以及提供数据库时实施这些要求。从中观视角来看,数据政策是研究机构、高校、出版商、图书馆、知识库和其他利益相关者针对其眼中的数据及其在数据组织和传播过程中的定位而进行的一系列选择。同时,较低层次的数据政策在研究资金、知识产权、创新、经济、治理和隐私等方面往往依赖于更高层次的数据政策。
为进一步推动学术交流,政府、资助机构、期刊和其他机构提出了一系列政策。这些政策往往进行了信息商品化和信息交换能力的简化假设。虽然制定政策的初衷是提高不同社区和学科之间的公平性,但却往往由于忽略各领域理论、实践和文化间的实质性差异,而导致这些政策的执行效果很差,甚至往往适得其反或被社区成员忽略。单个社区内部可能有用于控制数据采集、管理和共享的道德经济体系,如Kelty 2012和McCray 2000。案例研究和第8章中都提到,目前的数据管理计划和数据共享相关政策都更关注数据发布,而非数据重用和持续获取的方式。在知识基础设施组成部分中,数据管理计划和数据共享既复杂又昂贵。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
存储 安全 网络安全
云计算与网络安全:技术融合的未来之路
【10月更文挑战第30天】在数字化浪潮的推动下,云计算已成为企业信息技术架构的核心。然而,随之而来的网络安全问题也日益凸显。本文将探讨云计算与网络安全的关系,分析云服务中的安全挑战,并提出相应的解决方案。我们将通过实例展示如何在云计算环境中实现网络安全的最佳实践,以期为读者提供一条技术融合的未来之路。
|
1天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的深度剖析
【10月更文挑战第34天】本文将深入探讨云计算与网络安全的关系,包括云服务、网络安全、信息安全等技术领域。我们将通过实例和代码示例,解析云计算如何改变网络安全的格局,以及如何在云计算环境下保护信息安全。我们将从云计算的基本概念开始,然后深入到网络安全和信息安全的主题,最后通过代码示例来展示如何在云计算环境下实现网络安全和信息安全。
|
2天前
|
供应链 安全 网络安全
区块链技术与网络安全:机遇与挑战
区块链技术与网络安全:机遇与挑战
15 2
|
3天前
|
机器学习/深度学习 移动开发 自然语言处理
HTML5与神经网络技术的结合有哪些其他应用
HTML5与神经网络技术的结合有哪些其他应用
16 3
|
3天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
13 3
|
7天前
|
存储 安全 网络安全
云计算与网络安全:技术融合的双刃剑
【10月更文挑战第28天】本文旨在探索云计算在提供便利和效率的同时,如何成为网络安全领域的一大挑战。我们将从云服务的基本架构出发,分析其在信息安全中的关键作用,进而讨论当前网络安全面临的主要威胁及防御策略。文章还将探讨云计算环境中的数据保护、身份验证和访问控制机制,以及如何通过加密技术和安全协议来增强安全性。最后,我们将展望未来云计算与网络安全的发展趋势,并思考如何平衡技术创新与安全需求。
|
3天前
|
机器学习/深度学习 移动开发 自然语言处理
HTML5与神经网络技术的结合有哪些
HTML5与神经网络技术的结合有哪些
14 2
|
3天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
17 2
|
4天前
|
存储 安全 网络安全
云计算与网络安全:技术融合的新篇章
【10月更文挑战第31天】本文将深入探讨云计算与网络安全之间的紧密联系,揭示云服务在信息安全领域的关键作用。文章将通过分析网络安全的挑战、云服务的机遇以及信息安全的未来趋势,为读者提供一个全面的视角。同时,文章还将展示如何通过实际的技术手段和策略来增强云计算环境下的安全性。
13 1
|
6天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
31 1

热门文章

最新文章