中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2023 OSCAR开源产业大会”在北京举行。

2021年,“开源”被首次写入国家“十四五”规划,开源凭借开放、协作、共享的特点,已成为全球软件开发和产业创新发展的主导协作模式,为信息技术高质量发展提供了强大助力。与此同时,新一代人工智能、大数据、云计算、工业互联网、区块链等技术领域正结合开源,呈现出技术与产业协同共进共融的态势。

如今,通过开源开放模式加速信息产业生态共建已经成为业界共识。2023年9月21日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2023 OSCAR开源产业大会”在北京举行。会上,中国信通院云计算与大数据研究所所长何宝宏首次与业界分享对下一代开源的最新见解与观点。
1.jpg

开源拒绝重演“公地悲剧” 25年来取得巨大成功

25年来,开源以“违反”经济学基本原理的方式,以共享代码的方式大规模生产“数字公共品”。然而,在开源领域,经济学中的“公地悲剧”并没有出现。“公地悲剧”是一个经典的经济学问题,描述了个体在追求自身利益的过程中,导致公共资源过度使用和衰退的现象。

互联网的快速发展正是得益于开源的成功。从早期的操作系统Linux、安全通信OpenSSL、数据库My SQL、门户工具Apache、排版引擎Webkit,到近年来的手持终端Android、网络Open Daylight、云计算Open Stack、大数据Hadoop、容器Docker以及AI深度学习领域的TensorFlow和PyTorch等,这些借助开源互联网而起的开源软件,今日又成了互联网的基石。可以说,互联网与开源同根同源、相伴相生,既是Internet over Open Source,也是Open Source over Internet。

目前,开源许可协议类型有2700多种,主要差异性体现在对分发衍生软件的限制不同。在全球活跃度的前1000个开源软件中,超过60%使用MIT、Apache 2.0以及BSD宽松型许可协议。

何宝宏指出,如今开源已取得巨大成功。从生态规模看,全球开源生态成熟繁荣,全球开源软件项目高速增长,覆盖当前主流技术领域,全球开源贡献者储备规模庞大。从行业应用看,全球行业开源逐步兴起,各行业应用开源模式建立产业开放供应链,提升生产效能。此外,开源模式正在引领科技实现越来越多的突破。

开源许可协议面临新环境 从“通用开源”走向“场景化开源”

多年来,开源促进组织OSI(Open Source Initiative)维护着对开源的定义(OSD),以及其认可的开源许可协议列表,目标是促进和保护开源软件及开源社区。一切不满足OSI所规定的全部十条要求的开放许可协议,都会被开源权威机构OSI认为是“非典型性”开源。

开源许可协议从最早的GPL开始, 逐渐演进到GPLv2和v3,中间还有Apache、MPL、AGPL、LGPL等,但是近几年来有一批新的许可协议出现,引起了社区的一些激烈的讨论。这些新的许可协议包括BSL、SSPL、Elastic以及一个比较特殊的附加条款Commons Clause。

但OSI的这10大原则,诞生于20多年前,聚焦的是软件代码,更多是关于软件产品,属于通用开源范畴。近年来,开源的这一经典定义面临着新的挑战与重构,尤其是来自云计算、大数据、大模型和AIGC的挑战,让开源早已不在局限于通用领域,更多转向聚焦于数据、服务等场景化开源。

2.jpg

如今,云计算已经催生了一批“非典型性”开源许可协议。早期的开源许可协议,未涉及到云服务场景的分发形式。市场现实是云厂商基于开源技术推出云服务,但贡献甚少。于是,一批开源项目修改了开源协议,比如限制云服务模式的SSPL许可协议。

随着大数据尤其是数据资产化,开放数据和数据流通成为一种新“开源”模式。数据通常是事实和信息的表达,而版权通常适用于原创创作的表达形式,版权通常不适用于数据资产。

AI大模型涉及的开放许可证类型更为复杂。仅Hugging Face上开源的人工智能模型就超过28万,涉及66个开源协议,大致可以分为三类。第一类是通用开源软件许可协议,比如Apache 2.0/GPL 3.0/MPL 2.0;第二类是知识共享许可协议,比如CC-BY-4.0;第三类是人工智能大模型开源许可协议,比如Llama/OpenRail等。

相对OSI经典的开源定义,开源AI大模型都会对“古典”开源的定义做成新限制,多为用途和生成内容的输出。对于AIGC,更是存在新的争议,比如:AIGC生成的代码,可否参与开源贡献?目前各方对此类问题试图进行规范,比如:

2023年3月,美国版权局发布《AI版权认定声明及登记指引》,纯AIGC作品不受版权法保护,进行版权登记时需要披露AIGC部分。Apache基金会发布《第三方许可政策》,提出“AIGC的条款与开源定义保持一致”贡献者注明创建贡献时使用的工具,例如包含“Generated-by”。

事实上,AIGC涉及的版权和开放许可,还未形成广泛共识。何宝宏指出,开放许可协议的基石可分为几个阶段:软件著作权—>著作权—>知识产权—>知识产权+。涉及到开放数据和开源大模型许可协议,更需要考虑使用场景、商业收益和科技伦理问题。

迎接下一代开源 需与现实世界适配

当软件从产品成为服务,当开放的对象从代码延展到数据和模型,当开放许可的法律基础从版权延展所有权,当代码生成主体从自然人的程序员延展到AIGC,当开源与现实中的法规制度、隐私保护和科技伦理日益密切时,下一代开源将向何处去?

开源软件促进会OSI(open source initiative)对于开源提出了十个条款,包括:自由再发布、源代码公开、允许派生作品、作者源代码完整性、不能歧视任何个人或团体、不能歧视任何领域、许可协议的发布、许可协议不能只针对某个产品、许可协议不能约束其他软件、许可协议必须独立于技术。

3.jpg

目前,OSI已启动Open Source AI的定义讨论工作,定义了开放数据和人工智能系统的基本原则,涉及数据安全、版权所属、监管要求、道德伦理、责任认定等多个方面。

总体而言,何宝宏认为,下一代开源需要从两方面进行规范:一方面,开源应该与现实社会深度融合,遵守现实治理规则,如:监测统计、自律公约、责任边界、安全防护;另一方面,开源的发展也需要跟随社会长期性和周期性的发展规律。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
大数据 云计算
2024 CCF中国网络大会专题论坛丨下一代超大规模高性能公共云网络 精彩回顾
中国计算机学会ChinaNet上,阿里云洛神云网络将与知名学术届代表一起共话下一代超大规模高性能公共云网络的关键技术。
|
7月前
|
人工智能 Cloud Native Linux
2023全球数字经济大会——开放原子全球开源峰会观后感及总结
2023全球数字经济大会——开放原子全球开源峰会观后感及总结
93 0
2023全球数字经济大会——开放原子全球开源峰会观后感及总结
|
人工智能 边缘计算 Cloud Native
2023开放原子全球开源峰会参会感受:英特尔开源技术合作与产品创新
2023开放原子全球开源峰会参会感受:英特尔开源技术合作与产品创新
71 0
|
Web App开发 缓存 Cloud Native
Serverless 年终技术盘点 :工业、学术、社区遍地开花,国内厂商迅速卡位
预计 2021 年,将会有大量主流企业的核心应用,从原来的主机架构迁移到 Serverless 架构。
|
机器学习/深度学习 人工智能 供应链
年度必读!《全球开源生态研究报告(2022年)》:全球开源生态从“高速繁荣”向“稳步求精”演进
年度必读!《全球开源生态研究报告(2022年)》:全球开源生态从“高速繁荣”向“稳步求精”演进
493 0
|
机器学习/深度学习 人工智能 运维
首届 TechoDay 腾讯技术开放日:云原生、大数据等基础产品一键配置,发布 7 款“轻量级”产品
首届 TechoDay 腾讯技术开放日:云原生、大数据等基础产品一键配置,发布 7 款“轻量级”产品
281 0
|
物联网 Linux 云栖大会
云栖新闻|全球首次系列处理器全栈开源,平头哥推进RISC-V技术走向成熟
10月19日,2021云栖大会现场,阿里云智能总裁张建锋宣布,平头哥开源玄铁RISC-V系列处理器,并开放系列工具及系统软件。这是系列处理器与基础软件的全球首次全栈开源,将推动RISC-V架构走向成熟,帮助RISC-V软硬件技术加速融合发展,推动创新落地。
16683 0
云栖新闻|全球首次系列处理器全栈开源,平头哥推进RISC-V技术走向成熟
|
Kubernetes Cloud Native 容灾
开源是基础设施最佳开发方式 | GOTC 全球开源技术峰会
“开源”技术盛宴——GOTC 全球开源技术峰会圆满落幕 杨冰分享OceanBase 开源的发展历程 指出基础设施建设坚持开源与开放的重要性 想了解行业趋势的童鞋们快来码住
开源是基础设施最佳开发方式 | GOTC 全球开源技术峰会
|
人工智能 云计算
下一代公司是怎么样的?我们在阿里看到模型
德鲁克说,公司唯一价值是创造和满足消费者的需求,将资源和劳动力制造成商品,通过各种渠道提供给消费者。
1578 0
|
存储 Cloud Native 云计算
首届!「中国云计算基础架构开发者大会」征稿启动
首届中国云计算基础架构开发者大会(China Cloud Computing Infrastructure Developer Conference – 简称 CID)即将举行。 与 CLK (中国 Linux 内核开发者大会)不同的是,CLK 主题是与 Linux 内核相关,CID 主题则以云计算基础架构技术为主。本文推送首届 CID 的征稿启事,希望对云计算感兴趣的朋友们踊跃参与,一起办好首届峰会。
800 0
首届!「中国云计算基础架构开发者大会」征稿启动