数智洞察 | 大国科技博弈,开放科学平台的“四步”开源之旅

简介: 编者按:20世纪末,科学界发起了一系列体现“参与、包容、分享、合作、公开、透明”理念的开放科学运动,包括开源软件、开放获取、开放数据以及开放基础设施和平台等。开放科学运动的发起是为了克服传统封闭的科学模式造成的种种弊端,比如过高付费墙造成知识鸿沟与不平等。当前,随着时代发展,从开放获取迈向开放科学,已经成为全球共识,全球科研模式也因此发生深刻变革。但我国目前要实现开放科学还面临着许多问题,如何构建开放科学的中国路径、制定互惠共享的国际科技合作战略是我国开放科学发展的未来思路。 本文约3562字,建议阅读时间9分钟。


导语

当代科技发展对数据和算力提出了极高要求。在传统基础技术研究领域,全球各大科研院所、高校的科研团队普遍缺乏这方面的能力支撑。为了应对这一变化,近十年来,“开放科学平台”在欧美、非洲等地逐渐盛行,为科研社区提供包含开放数据及相关分析工具、开放算力平台、开放源代码的各种支持。放眼全球,在科学技术竞争激烈的大国时代,“开放科学平台”逐渐成为推动科技发展的关键变量。联合国教科文组织发布的《开放科学建议书》中提到,开放科学应支持整个科学界、不同研究团体和学者,以及传统科学界以外的广大公众和知识持有者的需求。


在疫情初始发现阶段,阿里云就向全球公共科研机构免费开放了一切AI算力。任何针对新型冠状病毒分析、疫苗新药研发的公共科研机构、学校、医院,都可以通过邮件联系阿里云疫情公益小组,并在第一时间与阿里云取得联系。同时,阿里云还与合作机构共同向全球科学共同体免费开放相关药物研发资源,共同加速针对新型冠状病毒的药物研发。从实际应用上看,中国在这个领域还需要加大投入,才能实现科学范式转变阶段基础科学平台建设的跟跑、并跑直到领跑。


从“Paradigm Shift”到“第四范式”

科学进步的轨迹是什么样的?早期,人们普遍认为,科学发展是循序渐进的,科学家不断涌现,将已有科学理论向前推进从而推动科学发现越来越接近真理。1962年,美国学者托马斯·库恩在《科学革命的结构》一书中提出,以物理学历史发展为例,科学发展存在有规律的不连续性。书中说,科学由一系列交替的“正常科学阶段”和“科学革命”阶段组成。在科学革命阶段,伴随着概念层的突破,已有的理论框架被新科学范式全面颠覆并重构,例如从牛顿力学到量子力学的转变。库恩创造了“范式转变(Paradigm Shift)”这一科学哲学新概念。在库恩定义的范式转变理论中,科学发现遵循的是另一条五个阶段的循环路径:

“前范式阶段”:几个不相容和不完整的理论,并逐渐收敛到一种被科学界普遍接受主导范式


“正常科学阶段”:在主导范式的背景下不断解决科学难题,推进科学进步


“危机阶段”:主导范式能未解决的异常现象,会在较长时期内不断累积,最终导致主导范式的信任危机


“范式转变阶段”:主导范式出现重大失败后,科研基本假设被重新审视,进入新范式建立阶段


“新范式阶段”:科学革命后,新范式主导地位确立库恩开创了一门名为科学史或科学社会学的新学科。社会学家和历史学家开始把科学看成一种普通的亚文化。范式转变推动科学发展已成广泛共识。

库恩之后,计算机领域的学界泰斗、数据库领域的传奇科学家吉姆·格雷把科学技术发展史总结为四个范式阶段


第一范式:经验(empirical)证据。数千年文明史中,人类绝大多数技术发展源于对自然现象观察和实验总结。相比于宗教或神学中不允许被质疑的教条来说,基于观察和实验的经验范式是科学技术发展中人类迈出的一大步。


第二范式:理论(theoretical)科学。相比于依赖观察和实验的第一范式可以做到“知其然”,第二范式的科学理论需要做到“知其所以然”,对自然界某些规律做出背后原理性的解释。因此,理论必须满足进一步的要求,如可证伪的预测能力、多个独立来源的一致性等。


第三范式:计算(computational)科学。随着计算机的运算能力越来越强大,它逐渐被用于科学研究领域。同前两个范式不同,计算科学中诞生了一种崭新的技术工具:计算模型与系统模拟。这一工具利用计算机的计算能力、基于大规模并行的计算机体系结构、通过设计算法并编制程序来模拟复杂过程,在大气环流、核反应过程、病毒感染过程。在经济学、心理学、认知科学等缺乏简单、直观分析解决方案的领域获得广泛采用。


第四范式:数据科学(Data exploration)。从基因测序仪、深空望远镜到覆盖全球的社交媒体,人类社会已经被深度数字化。每天在我们生活的数字地球里每天都会产生海量的数据。据估计到 2025年,全球每天将新产生463EB的数据,相当于212,765,957 张 DVD,这些DVD叠在一起有30个珠穆朗玛峰那么高。在这样一个数据爆炸的时代,基于数据的技术革命也正在发生,数据科学成为技术发展的最前沿。以数据为中心的计算平台、数据加工、处理与分享工具、算法与模型库等一系列科学研究方式构成了技术发展的第四范式。


“开放科学平台”:

更好应对第四范式的挑战

在第四范式主导的科技时代,研究团队除了研读技术最前沿研究论文,同时也需要这些论文涉及的实验数据集,以便复现实验结果。巨量数据和庞大计算需求给创新带来了新的挑战。传统科学交流仅限于论文和有限的公开数据集,为了促进新范式时代技术发展的持续性,加速科研团队的合作共享,欧美开始兴起了“开放科学”运动:arXiv:美国物理学博士保罗·金斯帕格1991在美国洛斯阿拉莫斯国家实验室创建了分享arXiv存储库,帮助全球科研团队分享研究论文预印本的全文数字版本。2008年,arXiv突破了50万篇文章的里程碑;2014年底达到100万篇;今天, arXiv每月从全球科研社区获得超过15000篇投稿。一些出版商还免费授予arXiv作者存档同行评审后印本的权限。arXiv也鼓励了更多科研机构,如美国国家医学图书馆仿照arXiv建立了医学领域的PubMed中央存储库。



Papers with Code:相比arXiv,Papers with Code在开放获取领域则更进一步。这个平台不仅分享论文,还鼓励科研团队分享论文工作所对应的代码和数据集。平台同时提供了相关评测环境,可以对提交的算法代码在公共数据集合上做技术排名。Papers with Code不仅创建一个包含论文、代码和数据集的开放集合,同时也提供了技术评估方法的免费开放平台,显著促进了相关领域科研团队技术分享与协作,加速科技创新进程。


NASA开源科学计划:为了降低太空科学探索门槛,让更多的科研团队可以参加美国国家航空航天局的科学研究,NASA 提出了开源科学计划 (OSSI)。OSSI的目标是在十年内建立一个开放科学社区,参与的科研团队承诺在研发过程中开放和共享相关软件、数据以及知识(包含算法、论文、文档以及相关辅助信息),并充分利用协作工具和云计算在内的技术工具提高NASA科学进步的速度和质量。




大国科技博弈:

开放科学平台的重要性

在第四范式时代,爆炸式增长的数据在科技研发工作中扮演了极其重要的角色,它也给经历这一次范式转变中各个学科,尤其是非计算机领域的科研团队带来全新挑战,涉及数据与模型的获取与分享、计算模型与系统模拟的规模膨胀、大规模人工合成数据构造、多模态数据处理与分析的工具、数据抽取、转换、加载、数据可视化与交互、人工智能工具集与算力平台等领域。



结语

今天,新一轮大国竞争很大程度上体现为支撑科技发展的生态系统以及创新体系之间的竞争,开放科学平台已成为促进科技研发重要的基础能力之一。以第四范式驱动的新一代创新体系在欧美已经有先发优势,从政府主导的科研项目到学术界的实践已有十年经验。我国需要在这个领域认识到自身不足,加速构建独立自主的开放科学平台,从而实现科学范式转变阶段科技发展的跟跑、并跑直到领跑。


内容作者:阿里研究院资深技术专家 苏中

内容来源:阿里研究院

编辑:阿里云研究院 马骏驰

相关文章
|
UED
生命中的开关:深入探讨Deactivated和Activated生命周期
生命中的开关:深入探讨Deactivated和Activated生命周期
356 1
|
存储 小程序
微信小程序的bindtap和catchtap的区别
微信小程序的bindtap和catchtap的区别
340 0
|
4月前
|
云安全 人工智能 供应链
2025全球数字经济大会—云智算安全论坛暨第三届“SecGo论坛”成功召开!共筑安全新生态
2025年7月3日,全球数字经济大会—云智算安全论坛暨第三届“SecGo论坛”在北京召开。论坛聚焦人工智能安全、云安全与软件供应链治理,汇聚行业专家共商高质量发展路径。中国信通院发布多项研究成果与标准,并联合企业发起多项倡议与计划,推动构建安全可信的数字生态。
215 0
|
5月前
|
测试技术 程序员 Go
Go语言测试简明指南:深度解读go test命令
总的来说,go test是 Go 语言中一个强而有力的工具,每个 Go 程序员都应该掌握并把它融入到日常的开发和调试过程中。就像是一个眼镜过滤出的太阳,让我们在宽阔的代码海洋中游泳,而不是淹没。用好它,让我们的代码更健壮,让我们的生产力更强效。
466 23
|
并行计算 大数据 数据处理
亿级数据处理,Pandas的高效策略
在大数据时代,数据量的爆炸性增长对处理技术提出更高要求。本文介绍如何利用Python的Pandas库及其配套工具高效处理亿级数据集,包括:采用Dask进行并行计算,分块读取以减少内存占用,利用数据库进行复杂查询,使用内存映射优化Pandas性能,以及借助PySpark实现分布式数据处理。通过这些方法,亿级数据处理变得简单高效,助力我们更好地挖掘数据价值。
563 1
|
C语言 Ubuntu
蓝易云 - ubuntu20.04安装gcc5.4 g++5.4
以上步骤应该可以帮助你在Ubuntu 20.04上安装GCC 5.4和G++ 5.4。
1104 2
|
9月前
|
负载均衡 网络协议 容灾
【飞天技术沙龙】云解析 DNS 上海站《多云+IDC 融合场景下的 DNS 最佳实践》圆满落幕
【飞天技术沙龙】云解析 DNS 上海站《多云+IDC 融合场景下的 DNS 最佳实践》圆满落幕
211 0
|
11月前
|
人工智能 Cloud Native 数据管理
数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布
Forrester是全球领先的市场研究与咨询机构,专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理,推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战,Forrester提出构建AI就绪的数据管理基石,通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略,帮助企业实现数据和AI的深度融合,提升业务价值并降低管理成本。
|
负载均衡 监控 算法
每个程序员都应该知道的 6 种负载均衡算法
每个程序员都应该知道的 6 种负载均衡算法
1441 2
|
Ubuntu
树莓派 —— 关闭安装软件包时ubuntu对内核版本等的检查
树莓派 —— 关闭安装软件包时ubuntu对内核版本等的检查