中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2023 OSCAR开源产业大会”在北京举行。

2021年,“开源”被首次写入国家“十四五”规划,开源凭借开放、协作、共享的特点,已成为全球软件开发和产业创新发展的主导协作模式,为信息技术高质量发展提供了强大助力。与此同时,新一代人工智能、大数据、云计算、工业互联网、区块链等技术领域正结合开源,呈现出技术与产业协同共进共融的态势。

如今,通过开源开放模式加速信息产业生态共建已经成为业界共识。2023年9月21日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2023 OSCAR开源产业大会”在北京举行。会上,中国信通院云计算与大数据研究所所长何宝宏首次与业界分享对下一代开源的最新见解与观点。
1.jpg

开源拒绝重演“公地悲剧” 25年来取得巨大成功

25年来,开源以“违反”经济学基本原理的方式,以共享代码的方式大规模生产“数字公共品”。然而,在开源领域,经济学中的“公地悲剧”并没有出现。“公地悲剧”是一个经典的经济学问题,描述了个体在追求自身利益的过程中,导致公共资源过度使用和衰退的现象。

互联网的快速发展正是得益于开源的成功。从早期的操作系统Linux、安全通信OpenSSL、数据库My SQL、门户工具Apache、排版引擎Webkit,到近年来的手持终端Android、网络Open Daylight、云计算Open Stack、大数据Hadoop、容器Docker以及AI深度学习领域的TensorFlow和PyTorch等,这些借助开源互联网而起的开源软件,今日又成了互联网的基石。可以说,互联网与开源同根同源、相伴相生,既是Internet over Open Source,也是Open Source over Internet。

目前,开源许可协议类型有2700多种,主要差异性体现在对分发衍生软件的限制不同。在全球活跃度的前1000个开源软件中,超过60%使用MIT、Apache 2.0以及BSD宽松型许可协议。

何宝宏指出,如今开源已取得巨大成功。从生态规模看,全球开源生态成熟繁荣,全球开源软件项目高速增长,覆盖当前主流技术领域,全球开源贡献者储备规模庞大。从行业应用看,全球行业开源逐步兴起,各行业应用开源模式建立产业开放供应链,提升生产效能。此外,开源模式正在引领科技实现越来越多的突破。

开源许可协议面临新环境 从“通用开源”走向“场景化开源”

多年来,开源促进组织OSI(Open Source Initiative)维护着对开源的定义(OSD),以及其认可的开源许可协议列表,目标是促进和保护开源软件及开源社区。一切不满足OSI所规定的全部十条要求的开放许可协议,都会被开源权威机构OSI认为是“非典型性”开源。

开源许可协议从最早的GPL开始, 逐渐演进到GPLv2和v3,中间还有Apache、MPL、AGPL、LGPL等,但是近几年来有一批新的许可协议出现,引起了社区的一些激烈的讨论。这些新的许可协议包括BSL、SSPL、Elastic以及一个比较特殊的附加条款Commons Clause。

但OSI的这10大原则,诞生于20多年前,聚焦的是软件代码,更多是关于软件产品,属于通用开源范畴。近年来,开源的这一经典定义面临着新的挑战与重构,尤其是来自云计算、大数据、大模型和AIGC的挑战,让开源早已不在局限于通用领域,更多转向聚焦于数据、服务等场景化开源。

2.jpg

如今,云计算已经催生了一批“非典型性”开源许可协议。早期的开源许可协议,未涉及到云服务场景的分发形式。市场现实是云厂商基于开源技术推出云服务,但贡献甚少。于是,一批开源项目修改了开源协议,比如限制云服务模式的SSPL许可协议。

随着大数据尤其是数据资产化,开放数据和数据流通成为一种新“开源”模式。数据通常是事实和信息的表达,而版权通常适用于原创创作的表达形式,版权通常不适用于数据资产。

AI大模型涉及的开放许可证类型更为复杂。仅Hugging Face上开源的人工智能模型就超过28万,涉及66个开源协议,大致可以分为三类。第一类是通用开源软件许可协议,比如Apache 2.0/GPL 3.0/MPL 2.0;第二类是知识共享许可协议,比如CC-BY-4.0;第三类是人工智能大模型开源许可协议,比如Llama/OpenRail等。

相对OSI经典的开源定义,开源AI大模型都会对“古典”开源的定义做成新限制,多为用途和生成内容的输出。对于AIGC,更是存在新的争议,比如:AIGC生成的代码,可否参与开源贡献?目前各方对此类问题试图进行规范,比如:

2023年3月,美国版权局发布《AI版权认定声明及登记指引》,纯AIGC作品不受版权法保护,进行版权登记时需要披露AIGC部分。Apache基金会发布《第三方许可政策》,提出“AIGC的条款与开源定义保持一致”贡献者注明创建贡献时使用的工具,例如包含“Generated-by”。

事实上,AIGC涉及的版权和开放许可,还未形成广泛共识。何宝宏指出,开放许可协议的基石可分为几个阶段:软件著作权—>著作权—>知识产权—>知识产权+。涉及到开放数据和开源大模型许可协议,更需要考虑使用场景、商业收益和科技伦理问题。

迎接下一代开源 需与现实世界适配

当软件从产品成为服务,当开放的对象从代码延展到数据和模型,当开放许可的法律基础从版权延展所有权,当代码生成主体从自然人的程序员延展到AIGC,当开源与现实中的法规制度、隐私保护和科技伦理日益密切时,下一代开源将向何处去?

开源软件促进会OSI(open source initiative)对于开源提出了十个条款,包括:自由再发布、源代码公开、允许派生作品、作者源代码完整性、不能歧视任何个人或团体、不能歧视任何领域、许可协议的发布、许可协议不能只针对某个产品、许可协议不能约束其他软件、许可协议必须独立于技术。

3.jpg

目前,OSI已启动Open Source AI的定义讨论工作,定义了开放数据和人工智能系统的基本原则,涉及数据安全、版权所属、监管要求、道德伦理、责任认定等多个方面。

总体而言,何宝宏认为,下一代开源需要从两方面进行规范:一方面,开源应该与现实社会深度融合,遵守现实治理规则,如:监测统计、自律公约、责任边界、安全防护;另一方面,开源的发展也需要跟随社会长期性和周期性的发展规律。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
云安全 安全 云计算
|
11月前
|
人工智能 边缘计算 Cloud Native
2023开放原子全球开源峰会参会感受:英特尔开源技术合作与产品创新
2023开放原子全球开源峰会参会感受:英特尔开源技术合作与产品创新
49 0
|
人工智能 安全 关系型数据库
|
开发者
“软件定义世界,开源共筑未来”|2022 开放原子全球开源峰会报名火热开启!
“软件定义世界,开源共筑未来”|2022 开放原子全球开源峰会报名火热开启!
145 0
“软件定义世界,开源共筑未来”|2022 开放原子全球开源峰会报名火热开启!
|
SQL 运维 负载均衡
OceanBase荣获OSCAR两项大奖,开源已成主流开发模式
2022 年 9 月 16 日,在由中国信息通信研究院(简称中国信通院)主办的“2022 OSCAR 开源产业大会"上,企业级开源原生分布式数据库 OceanBase 荣获“2022 OSCAR 尖峰开源项目和社区”、“2022 OSCAR 尖峰开源企业(开源运营与生态建设)”奖项,收获了小而美的开端。
181 0
OceanBase荣获OSCAR两项大奖,开源已成主流开发模式
|
机器学习/深度学习 人工智能 供应链
年度必读!《全球开源生态研究报告(2022年)》:全球开源生态从“高速繁荣”向“稳步求精”演进
年度必读!《全球开源生态研究报告(2022年)》:全球开源生态从“高速繁荣”向“稳步求精”演进
477 0
|
机器学习/深度学习 人工智能 运维
首届 TechoDay 腾讯技术开放日:云原生、大数据等基础产品一键配置,发布 7 款“轻量级”产品
首届 TechoDay 腾讯技术开放日:云原生、大数据等基础产品一键配置,发布 7 款“轻量级”产品
254 0
|
Web App开发 缓存 Cloud Native
Serverless 年终技术盘点 :工业、学术、社区遍地开花,国内厂商迅速卡位
预计 2021 年,将会有大量主流企业的核心应用,从原来的主机架构迁移到 Serverless 架构。
|
人工智能 算法 Linux
国产 AI 芯片设计企业嘉楠科技加入龙蜥社区,共建开源生态
嘉楠科技加入龙蜥社区,推动开源指令、开源芯片在商用领域的实践,加强与龙蜥操作系统(Anolis OS)的软硬件协同,培育端侧 AI 创新开发者生态。
国产 AI 芯片设计企业嘉楠科技加入龙蜥社区,共建开源生态
|
边缘计算 供应链 Kubernetes
2022 红帽全球峰会:持续创新,定义“新开源”
红帽作为企业级开源的代表,将带领开发者们在开源技术领域实现怎样的创新,值得我们期待。
289 0