《大数据、小数据、无数据:网络世界的数据学术》一 3.3 社会与技术

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.3节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 社会与技术

社会与技术之间的密切关系是数据学术的重要组成部分。由于各关系具有反身性且相互作用,因此彼此之间很难进行分割。现有工具使数据创造成为可能,但工具发挥作用的前提是知道采集何种数据。与其尝试解决那些长期存在的争论,不如假设学术研究的社会和技术两个方面不可分割。数据与工具之间相辅相成,缺一不可。二者的涵义蕴含于彼此之间的关系中(Bijker,Hughes,and Pinch 1987;Bijker 1995;Hughes 1989,2004;Latour and Woolgar 1979;Latour 1987,1988,1993;Meyer and Schroeder 2014;Schroeder 2007)。
布鲁诺·拉图尔(Bruno Latour,1987)创造了技性科学(technoscience)一词,用于说明科学实践与技术的结合方式。拉图尔从哲学视角出发,认为科学一词应当包含大多数形式的学术研究。在北美地区,科学常常不同于社会科学和人文学科。在工程、医学、法律和教育等领域,科学也可以依据专业知识进一步分类。虽然这对划清学术部门等机构的边界具有一定作用,但由于知识和学术的存在,这种划分方法略显武断。本书中的科学一词有时也泛指学术知识和实践。因此,这里的案例分析以学科为单位展开,即包括自然科学、社会科学和人文学科。
在数据日益引起关注的大背景下,科学的历史和哲学问题层出不穷。科学是一项昂贵的公共投资。自第二次世界大战以来,特别是自冷战结束以后,公众要求建立更多问责制、对研究方向有更多发言权以及获得更多研究成果等权利(Kwa 2011;Latour 2004)。随着科学事业和公众之间关系的转变,社会科学家更渴望研究学术工作。自然科学家和其他学者也更愿意成为研究对象,他们希望能借此表达自己的想法,同时可以从外部对其工作的研究中获益(Salk 1986)。从20世纪50年代初开始,越来越多的学术工作专注于研究科学和技术的历史、哲学和社会等方面(Hackett et al. 2007;Latour and Woolgar 1986;Lievrouw and Livingstone 2002;van Raan 1988;Woolgar 1988)。这种方式同时推动了社会科学和人文学科的学术实践研究(Borgman 2009;Case 2006;De La Flor et al. 2010;Friedlander 2009;Jirotka et al. 2006;Wouters et al. 2012)。

3.3.1 社区与协作

数据的政策、实践、标准和基础设施往往涉及与数据相关的社区。数据管理计划就是一个典型例子,即“此类数据的组成部分取决于利益共同体的同行评审和项目管理”(National Science Foundation 2010a)。无独有偶,数字档案政策就是在“特定社区”(designated community)(Consultative Committee for Space Data Systems 2012)前提下制定的。数据往往是通过微妙差异对领域进行分界的“边界对象”(boundary object)(Star and Griesemer 1989)。研究过数据在协作中的作用后,社区的边界、范围、一致性和非一致性便呼之欲出了。
数据的采集、创造、分析、解释和管理等需要对应研究领域的专业知识,如理论和实践以及社会和技术等各类型的专业知识。其中的部分专业知识很容易教授或可以从书籍、期刊和文献中学到,但大部分都是难以描述却根深蒂固的知识。后者中,最闻名的是“隐性知识”,这个概念本身就很复杂。这种专业知识在数据挖掘中发挥着重要作用,但往往最难实现跨社区和跨情景迁移(Agre 1994;Collins and Evans 2007;Darch et al. 2010;Duguid 2005;Polanyi 1966;Schmidt 2012)。
社区(community)是社会科学中著名的理论概念。在围绕科学和学术展开的社会研究中,实践社群(communities of practice)和认知文化(epistemic culture)是其核心思想。实践社群这一概念由雷夫(Lave)和威戈(Wenger)提出并得到广泛研究和发展,主要用于描述群体中的知识学习和共享行为(Osterlund and Carlile 2005)。相反,认知文化既不是学科也不是社区(Knorr-Cetina 1999),其更像是一组与知识构建过程相关的“制度安排和机制”(arrangements and mechanisms)以及个人、社区、人工产品和技术等(Van House 2004)。实践社群和认知文化的共同点在于知识的情景化和本地性。南希·范豪斯(Nancy Van House 2004,40)对此观点进行了简单总结:“没有‘无源之见’,即知识总是与特定场景、时间、条件、实践和理解相关。没有单一的知识,只有多元化的知识。”

3.3.2 知识与表示

虽然人们进行了很多数据商品化的工作,但其只有在成为能吸引和转移注意力的热点话题时,才是“明亮的光源”(Schrier 2011;Starke 2013)。随着研究领域、学科和专业等文化的长期演变,信号、记录、笔记、观察结果、标本以及其他实体开始被视为数据。科学实践的相关文献叫作“说明册”(inscription)(Latour and Woolgar 1979,1986;Latour 1988;Lynch and Woolgar 1988a,1988b)。各领域的数据文档、描述和表示形式各异。数据通用表示方法有元数据、标记语言、格式、标签、命名空间、词典、本体等,这些方法有助于实现领域内数据交换。通用表示形式可以对社区边界进行定义。对那些具有多种数据表示方法的领域而言,这些边界也可能成为实现跨领域数据迁移的障碍。疾病、药物、植物、动物和现象等领域名字各异。多源数据的组合能力取决于相关说明册。
数据、论证标准、表示形式和研究实践之间的关系错综复杂。只有在尝试使用或组合外部数据源、协作以及把一个社区的实践方法运用于另一个社区时,社区之间的差异才很明显。正如第二项挑战所述,实现知识的跨情景和跨时间迁移绝非易事。因为数据的具体涵义取决于外围设备,即软件、硬件、方法、文档、出版物等,所以,与其他知识形式相比,实现数据的跨情景、跨时间迁移只会难上加难,甚至是最难的。
期刊论文、会议论文、书籍以及其他各类出版物都是信息合集,作为独立单元,它们为专业读者甚至更广大的群体所接受。它们是学术知识的表示形式,且往往包括便于传播、发现和交换的数据表示形式。几个世纪以来,学术出版物的表示形式不断发展演变。当前学术书籍的组成部分包括标题页、著作权声明、目录、索引以及其他特征,这些特征并非一蹴而就,而是逐步发展起来的。其中的部分特征(如责任声明)已经从书籍迁移到文章。1665年,这种用法最早出现在第一批学术期刊中,如巴黎的《学者杂志》和伦敦的《英国皇家学会期刊》。从那时起,以学术发表为中心的知识基础设施逐渐扩展。出版商、同行评审、书目资讯、索引和摘要服务、信息检索系统以及期刊影响因子等评价指标都是知识基础设施的组成部分,具体内容见第9章。

3.3.3 理论、实践与政策

数据学术是位于理论、实践和政策范围之外的概念。在微观层面上,数据政策是研究人员针对数据展开的一系列选择,例如,如何看待数据,保存、监护何种数据,在何时、与何人实现数据共享,何时存储何种数据以及存储多久。从宏观角度来看,数据政策是政府和资助机构的一系列选择,例如,何为数据,要求研究人员保存何种数据,何时、如何、向谁公开何种数据,要求何人在多长时限内保管何种数据,如何在基金申请书、奖励制度中以及提供数据库时实施这些要求。从中观视角来看,数据政策是研究机构、高校、出版商、图书馆、知识库和其他利益相关者针对其眼中的数据及其在数据组织和传播过程中的定位而进行的一系列选择。同时,较低层次的数据政策在研究资金、知识产权、创新、经济、治理和隐私等方面往往依赖于更高层次的数据政策。
为进一步推动学术交流,政府、资助机构、期刊和其他机构提出了一系列政策。这些政策往往进行了信息商品化和信息交换能力的简化假设。虽然制定政策的初衷是提高不同社区和学科之间的公平性,但却往往由于忽略各领域理论、实践和文化间的实质性差异,而导致这些政策的执行效果很差,甚至往往适得其反或被社区成员忽略。单个社区内部可能有用于控制数据采集、管理和共享的道德经济体系,如Kelty 2012和McCray 2000。案例研究和第8章中都提到,目前的数据管理计划和数据共享相关政策都更关注数据发布,而非数据重用和持续获取的方式。在知识基础设施组成部分中,数据管理计划和数据共享既复杂又昂贵。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
11天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
95 7
|
10天前
|
存储 安全 网络安全
云计算与网络安全:技术融合的双刃剑
【10月更文挑战第40天】本文将深入探讨云计算与网络安全之间的关系,揭示它们如何相互依赖又互相挑战。我们将从云计算的基本概念出发,逐步引入网络安全的重要性,并分析云服务在提供便利的同时可能带来的安全隐患。文章还将讨论信息安全的关键领域,如加密技术和身份验证机制,以及如何在云计算环境中加强这些安全措施。通过本文,读者将获得对云计算和网络安全复杂关系的深刻理解,并认识到在享受技术便利的同时,维护网络安全的重要性。
|
11天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
26 2
|
13天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
52 2
|
15天前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
|
7天前
|
监控 安全 网络安全
云计算与网络安全:探索云服务中的信息安全技术
【10月更文挑战第43天】本文将深入探讨云计算与网络安全的交汇点,重点分析云服务中的信息安全技术和策略。我们将从云计算的基础架构出发,逐步剖析网络安全的重要性,并介绍如何通过实施有效的安全措施来保护数据和应用程序。文章还将提供实用的代码示例,帮助读者更好地理解和应用这些安全技术。
22 4
|
8天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
16 4
|
9天前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
10天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域
【10月更文挑战第40天】随着互联网技术的不断发展,云计算已经成为了现代社会中不可或缺的一部分。然而,云计算的普及也带来了一系列的安全问题。本文将探讨云计算与网络安全之间的关系,包括云服务、网络安全、信息安全等领域。我们将通过代码示例来展示如何保护云计算环境中的敏感信息和数据。最后,我们将总结云计算与网络安全之间的紧密联系,并展望未来的发展趋势。
|
11天前
|
云安全 安全 网络安全
云计算与网络安全:技术挑战与解决策略
【10月更文挑战第39天】随着云计算技术的飞速发展,网络安全问题也日益凸显。本文将探讨云计算环境下的网络安全挑战,并提出相应的解决策略。通过分析云服务模型、网络安全威胁以及信息安全技术的应用,我们将揭示如何构建一个安全的云计算环境。
下一篇
无影云桌面