数智洞察 | 大国科技博弈,开放科学平台的“四步”开源之旅

简介: 编者按:20世纪末,科学界发起了一系列体现“参与、包容、分享、合作、公开、透明”理念的开放科学运动,包括开源软件、开放获取、开放数据以及开放基础设施和平台等。开放科学运动的发起是为了克服传统封闭的科学模式造成的种种弊端,比如过高付费墙造成知识鸿沟与不平等。当前,随着时代发展,从开放获取迈向开放科学,已经成为全球共识,全球科研模式也因此发生深刻变革。但我国目前要实现开放科学还面临着许多问题,如何构建开放科学的中国路径、制定互惠共享的国际科技合作战略是我国开放科学发展的未来思路。 本文约3562字,建议阅读时间9分钟。


导语

当代科技发展对数据和算力提出了极高要求。在传统基础技术研究领域,全球各大科研院所、高校的科研团队普遍缺乏这方面的能力支撑。为了应对这一变化,近十年来,“开放科学平台”在欧美、非洲等地逐渐盛行,为科研社区提供包含开放数据及相关分析工具、开放算力平台、开放源代码的各种支持。放眼全球,在科学技术竞争激烈的大国时代,“开放科学平台”逐渐成为推动科技发展的关键变量。联合国教科文组织发布的《开放科学建议书》中提到,开放科学应支持整个科学界、不同研究团体和学者,以及传统科学界以外的广大公众和知识持有者的需求。


在疫情初始发现阶段,阿里云就向全球公共科研机构免费开放了一切AI算力。任何针对新型冠状病毒分析、疫苗新药研发的公共科研机构、学校、医院,都可以通过邮件联系阿里云疫情公益小组,并在第一时间与阿里云取得联系。同时,阿里云还与合作机构共同向全球科学共同体免费开放相关药物研发资源,共同加速针对新型冠状病毒的药物研发。从实际应用上看,中国在这个领域还需要加大投入,才能实现科学范式转变阶段基础科学平台建设的跟跑、并跑直到领跑。


从“Paradigm Shift”到“第四范式”

科学进步的轨迹是什么样的?早期,人们普遍认为,科学发展是循序渐进的,科学家不断涌现,将已有科学理论向前推进从而推动科学发现越来越接近真理。1962年,美国学者托马斯·库恩在《科学革命的结构》一书中提出,以物理学历史发展为例,科学发展存在有规律的不连续性。书中说,科学由一系列交替的“正常科学阶段”和“科学革命”阶段组成。在科学革命阶段,伴随着概念层的突破,已有的理论框架被新科学范式全面颠覆并重构,例如从牛顿力学到量子力学的转变。库恩创造了“范式转变(Paradigm Shift)”这一科学哲学新概念。在库恩定义的范式转变理论中,科学发现遵循的是另一条五个阶段的循环路径:

“前范式阶段”:几个不相容和不完整的理论,并逐渐收敛到一种被科学界普遍接受主导范式


“正常科学阶段”:在主导范式的背景下不断解决科学难题,推进科学进步


“危机阶段”:主导范式能未解决的异常现象,会在较长时期内不断累积,最终导致主导范式的信任危机


“范式转变阶段”:主导范式出现重大失败后,科研基本假设被重新审视,进入新范式建立阶段


“新范式阶段”:科学革命后,新范式主导地位确立库恩开创了一门名为科学史或科学社会学的新学科。社会学家和历史学家开始把科学看成一种普通的亚文化。范式转变推动科学发展已成广泛共识。

库恩之后,计算机领域的学界泰斗、数据库领域的传奇科学家吉姆·格雷把科学技术发展史总结为四个范式阶段


第一范式:经验(empirical)证据。数千年文明史中,人类绝大多数技术发展源于对自然现象观察和实验总结。相比于宗教或神学中不允许被质疑的教条来说,基于观察和实验的经验范式是科学技术发展中人类迈出的一大步。


第二范式:理论(theoretical)科学。相比于依赖观察和实验的第一范式可以做到“知其然”,第二范式的科学理论需要做到“知其所以然”,对自然界某些规律做出背后原理性的解释。因此,理论必须满足进一步的要求,如可证伪的预测能力、多个独立来源的一致性等。


第三范式:计算(computational)科学。随着计算机的运算能力越来越强大,它逐渐被用于科学研究领域。同前两个范式不同,计算科学中诞生了一种崭新的技术工具:计算模型与系统模拟。这一工具利用计算机的计算能力、基于大规模并行的计算机体系结构、通过设计算法并编制程序来模拟复杂过程,在大气环流、核反应过程、病毒感染过程。在经济学、心理学、认知科学等缺乏简单、直观分析解决方案的领域获得广泛采用。


第四范式:数据科学(Data exploration)。从基因测序仪、深空望远镜到覆盖全球的社交媒体,人类社会已经被深度数字化。每天在我们生活的数字地球里每天都会产生海量的数据。据估计到 2025年,全球每天将新产生463EB的数据,相当于212,765,957 张 DVD,这些DVD叠在一起有30个珠穆朗玛峰那么高。在这样一个数据爆炸的时代,基于数据的技术革命也正在发生,数据科学成为技术发展的最前沿。以数据为中心的计算平台、数据加工、处理与分享工具、算法与模型库等一系列科学研究方式构成了技术发展的第四范式。


“开放科学平台”:

更好应对第四范式的挑战

在第四范式主导的科技时代,研究团队除了研读技术最前沿研究论文,同时也需要这些论文涉及的实验数据集,以便复现实验结果。巨量数据和庞大计算需求给创新带来了新的挑战。传统科学交流仅限于论文和有限的公开数据集,为了促进新范式时代技术发展的持续性,加速科研团队的合作共享,欧美开始兴起了“开放科学”运动:arXiv:美国物理学博士保罗·金斯帕格1991在美国洛斯阿拉莫斯国家实验室创建了分享arXiv存储库,帮助全球科研团队分享研究论文预印本的全文数字版本。2008年,arXiv突破了50万篇文章的里程碑;2014年底达到100万篇;今天, arXiv每月从全球科研社区获得超过15000篇投稿。一些出版商还免费授予arXiv作者存档同行评审后印本的权限。arXiv也鼓励了更多科研机构,如美国国家医学图书馆仿照arXiv建立了医学领域的PubMed中央存储库。



Papers with Code:相比arXiv,Papers with Code在开放获取领域则更进一步。这个平台不仅分享论文,还鼓励科研团队分享论文工作所对应的代码和数据集。平台同时提供了相关评测环境,可以对提交的算法代码在公共数据集合上做技术排名。Papers with Code不仅创建一个包含论文、代码和数据集的开放集合,同时也提供了技术评估方法的免费开放平台,显著促进了相关领域科研团队技术分享与协作,加速科技创新进程。


NASA开源科学计划:为了降低太空科学探索门槛,让更多的科研团队可以参加美国国家航空航天局的科学研究,NASA 提出了开源科学计划 (OSSI)。OSSI的目标是在十年内建立一个开放科学社区,参与的科研团队承诺在研发过程中开放和共享相关软件、数据以及知识(包含算法、论文、文档以及相关辅助信息),并充分利用协作工具和云计算在内的技术工具提高NASA科学进步的速度和质量。




大国科技博弈:

开放科学平台的重要性

在第四范式时代,爆炸式增长的数据在科技研发工作中扮演了极其重要的角色,它也给经历这一次范式转变中各个学科,尤其是非计算机领域的科研团队带来全新挑战,涉及数据与模型的获取与分享、计算模型与系统模拟的规模膨胀、大规模人工合成数据构造、多模态数据处理与分析的工具、数据抽取、转换、加载、数据可视化与交互、人工智能工具集与算力平台等领域。



结语

今天,新一轮大国竞争很大程度上体现为支撑科技发展的生态系统以及创新体系之间的竞争,开放科学平台已成为促进科技研发重要的基础能力之一。以第四范式驱动的新一代创新体系在欧美已经有先发优势,从政府主导的科研项目到学术界的实践已有十年经验。我国需要在这个领域认识到自身不足,加速构建独立自主的开放科学平台,从而实现科学范式转变阶段科技发展的跟跑、并跑直到领跑。


内容作者:阿里研究院资深技术专家 苏中

内容来源:阿里研究院

编辑:阿里云研究院 马骏驰

目录
打赏
0
0
0
0
1012
分享
相关文章
云场景实践研究第11期:美柚
美柚在2014年接触阿里云之后,逐渐采用阿里云的产品,从最开始接触公测的ADS到现在使用的ECS、MaxCompute、RDS、分析型数据库、TAE、阿里云云盾等等,目前美柚形成了混合云的模式。目前,美柚的整个官网全部部署在阿里云上,同时美柚还基于阿里云建立了电商柚子街,并且还基于阿里云搭建了BI系统。
2665 0
云场景实践研究第40期:网聚宝
作为阿里云的深度用户,网聚宝的成长和阿里云的成长已经深深交织在了一起,在公开的5个产品技术上总投入资源大约是同类产品的1/5。作为一个中小规模的技术团队,客户已有3000多家品牌。本文将详细解读网聚宝在使用阿里云产品4年的过程中,基于云计算的架构心得。
2038 0
云场景实践研究第83期:众安保险
当传统保险公司还在将“开门红”作为重中之重提前几个月做准备的时候,互联网保险公司关注的则是“双十一”和“双十二”。2017年双十一当日,刚刚在香港上市的众安保险的保单量突破3亿,比2014年增长超过200%。阿里云所输出的服务,则在帮助基础设施建设发挥“乘数效应”。
1932 0
阿里云新品发布会周刊第82期 丨 重磅!大数据实时分析与决策&当AI遇上展会
12月23日阿里云新品发布会带您了解阿里云实时数仓如何助力企业实时决策;12月25日更有新栏目“云计算情报局”登场展现-当AI遇上展会。更多精彩内容敬请关注阿里云新品发布会!
807 0
阿里云新品发布会周刊第82期 丨 重磅!大数据实时分析与决策&当AI遇上展会
金融安全资讯精选 2017年第一期:云战略下的安全思维转型与新认知
Clutch云安全调查发布,Necurs僵尸网络攻击美国金融机构,账户盗用威胁加剧,英国60%的金融和保险机构将网络安全设为高优先级,阿里云安全负责人肖力谈企业安全的四个“新认知”
5471 0
外滩大会热议:AI时代数据价值转变,如何打造下一代智能数据体系?
9月5日,2024 Inclusion·外滩大会举办“从DATA for AI到AI for DATA”论坛,蚂蚁集团、上海交通大学和复旦大学联合主办,探讨AI时代数据价值的转变。中国工程院院士郑纬民和新加坡工程院院士颜水成等专家参会,分享了数据技术变化趋势及与AI融合的最新进展。论坛强调大模型对数据技术的需求推动了存储、生产和加工等各环节的技术革新,并探讨了合成数据和智能数据体系的重要性。

热门文章

最新文章