ACM最新论文戳破大公司开源谎言,GenAI时代到底如何定义开源模型

简介: 【7月更文挑战第2天】ACM论文揭示GenAI开源真相,指出开源模型常缺乏开放数据集、完整代码与功能,质疑大公司仅借开源名义吸引利益。论文倡导重新定义开源,提议全面评估框架、加强监管及教育,确保真开源,促进领域健康发展。[链接:https://dl.acm.org/doi/3630106.3659005]

近年来,随着人工智能(AI)技术的飞速发展,生成式AI(GenAI)系统逐渐成为人们关注的焦点。这些系统能够生成文本、图像、视频等多种形式的内容,为人们的生活带来了极大的便利。然而,随着GenAI系统的广泛应用,其开源性问题也引起了广泛的争议。

最近,一篇发表在ACM(Association for Computing Machinery)会议上的论文,对GenAI系统的开源性进行了深入的研究和分析,并得出了一些令人惊讶的结论。这篇论文指出,尽管许多GenAI系统都声称自己是开源的,但实际上,它们的开源性可能并不像人们所想象的那样。

首先,这篇论文提出了一个问题:什么是真正的开源?在GenAI领域,开源通常被定义为开放源代码、开放数据集和开放模型。然而,这篇论文指出,许多GenAI系统并没有完全满足这些条件。

以源代码为例,虽然一些GenAI系统确实开放了它们的源代码,但这些代码可能只包含了模型的训练部分,而没有包括模型的推理部分。这意味着,虽然人们可以看到模型是如何训练的,但无法使用这些模型来生成实际的内容。

此外,这篇论文还指出,许多GenAI系统并没有开放它们的数据集。数据集是GenAI系统的基础,没有数据集,模型就无法进行训练。然而,许多GenAI系统并没有公开它们所使用的数据集,这让人们无法了解这些模型是如何工作的。

最后,这篇论文还指出,一些GenAI系统虽然开放了它们的模型,但这些模型可能只包含了一些基本的功能,而没有包括一些高级的功能。这意味着,虽然人们可以使用这些模型来生成一些简单的内容,但无法使用它们来生成一些复杂的内容。

那么,为什么会有这么多GenAI系统声称自己是开源的,但实际上并没有完全满足开源的条件呢?这篇论文认为,这可能是因为一些公司和组织想要利用开源的名头来吸引用户和投资者,但又不想完全公开它们的技术。

这种行为被称为"开源洗白",即通过声称自己是开源的来获取开源的好处,但实际上并没有完全满足开源的条件。这种行为不仅会误导用户和投资者,还会影响整个GenAI领域的健康发展。

因此,这篇论文呼吁,在GenAI领域,我们需要重新定义开源的概念。开源不应该只是一种营销手段,而应该是一种真正的开放和共享的精神。只有当GenAI系统真正满足了开源的条件,我们才能说它们是开源的。

这篇论文还提出了一些具体的建议,以帮助我们重新定义GenAI领域的开源性。首先,它建议我们应该建立一个全面的开源评估框架,以评估GenAI系统的开源性。这个框架应该包括多个维度,如数据集的开放性、模型的可解释性等。

其次,这篇论文建议我们应该加强监管,以确保GenAI系统的开源性。政府和行业组织应该制定相关的法规和标准,以规范GenAI系统的开源行为。

最后,这篇论文还建议我们应该加强教育和培训,以提高人们对GenAI系统开源性的认识。只有当人们真正理解了开源的重要性,他们才能做出明智的选择。

论文地址:https://dl.acm.org/doi/10.1145/3630106.3659005

目录
相关文章
|
7月前
|
域名解析 负载均衡 网络协议
阿里云基础设施网络研发团队参与论文获得CCS 2023 杰出论文奖
阿里云基础设施网络研发团队参与论文获得CCS 2023 杰出论文奖
|
7月前
|
人工智能 自然语言处理
浙大联合微软等提出全新视频编辑统一框架UniEdit
【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit
64 2
浙大联合微软等提出全新视频编辑统一框架UniEdit
|
7月前
|
人工智能 自然语言处理 数据可视化
书生·浦语 2.0 开源!回归语言建模本质,综合性能领先开源社区,魔搭最佳实践来啦!
1月17日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语2.0(InternLM2),模型开源可商用,魔搭社区作为首发平台,支持大家第一时间下载体验。
|
机器学习/深度学习 人工智能 安全
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
208 0
|
机器学习/深度学习 人工智能 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(2)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
262 0
|
人工智能 自然语言处理 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(1)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
310 0
|
机器学习/深度学习 数据采集 人工智能
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(2)
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
236 0
|
机器学习/深度学习 人工智能 自然语言处理
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(1)
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
378 0
|
人工智能 JSON 运维
理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖(1)
理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖
154 0
|
机器学习/深度学习 人工智能 运维
理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖(2)
理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖
146 0
下一篇
DataWorks