ACM最新论文戳破大公司开源谎言,GenAI时代到底如何定义开源模型

简介: 【7月更文挑战第2天】ACM论文揭示GenAI开源真相,指出开源模型常缺乏开放数据集、完整代码与功能,质疑大公司仅借开源名义吸引利益。论文倡导重新定义开源,提议全面评估框架、加强监管及教育,确保真开源,促进领域健康发展。[链接:https://dl.acm.org/doi/3630106.3659005]

近年来,随着人工智能(AI)技术的飞速发展,生成式AI(GenAI)系统逐渐成为人们关注的焦点。这些系统能够生成文本、图像、视频等多种形式的内容,为人们的生活带来了极大的便利。然而,随着GenAI系统的广泛应用,其开源性问题也引起了广泛的争议。

最近,一篇发表在ACM(Association for Computing Machinery)会议上的论文,对GenAI系统的开源性进行了深入的研究和分析,并得出了一些令人惊讶的结论。这篇论文指出,尽管许多GenAI系统都声称自己是开源的,但实际上,它们的开源性可能并不像人们所想象的那样。

首先,这篇论文提出了一个问题:什么是真正的开源?在GenAI领域,开源通常被定义为开放源代码、开放数据集和开放模型。然而,这篇论文指出,许多GenAI系统并没有完全满足这些条件。

以源代码为例,虽然一些GenAI系统确实开放了它们的源代码,但这些代码可能只包含了模型的训练部分,而没有包括模型的推理部分。这意味着,虽然人们可以看到模型是如何训练的,但无法使用这些模型来生成实际的内容。

此外,这篇论文还指出,许多GenAI系统并没有开放它们的数据集。数据集是GenAI系统的基础,没有数据集,模型就无法进行训练。然而,许多GenAI系统并没有公开它们所使用的数据集,这让人们无法了解这些模型是如何工作的。

最后,这篇论文还指出,一些GenAI系统虽然开放了它们的模型,但这些模型可能只包含了一些基本的功能,而没有包括一些高级的功能。这意味着,虽然人们可以使用这些模型来生成一些简单的内容,但无法使用它们来生成一些复杂的内容。

那么,为什么会有这么多GenAI系统声称自己是开源的,但实际上并没有完全满足开源的条件呢?这篇论文认为,这可能是因为一些公司和组织想要利用开源的名头来吸引用户和投资者,但又不想完全公开它们的技术。

这种行为被称为"开源洗白",即通过声称自己是开源的来获取开源的好处,但实际上并没有完全满足开源的条件。这种行为不仅会误导用户和投资者,还会影响整个GenAI领域的健康发展。

因此,这篇论文呼吁,在GenAI领域,我们需要重新定义开源的概念。开源不应该只是一种营销手段,而应该是一种真正的开放和共享的精神。只有当GenAI系统真正满足了开源的条件,我们才能说它们是开源的。

这篇论文还提出了一些具体的建议,以帮助我们重新定义GenAI领域的开源性。首先,它建议我们应该建立一个全面的开源评估框架,以评估GenAI系统的开源性。这个框架应该包括多个维度,如数据集的开放性、模型的可解释性等。

其次,这篇论文建议我们应该加强监管,以确保GenAI系统的开源性。政府和行业组织应该制定相关的法规和标准,以规范GenAI系统的开源行为。

最后,这篇论文还建议我们应该加强教育和培训,以提高人们对GenAI系统开源性的认识。只有当人们真正理解了开源的重要性,他们才能做出明智的选择。

论文地址:https://dl.acm.org/doi/10.1145/3630106.3659005

目录
相关文章
|
1月前
|
编解码 文字识别 计算机视觉
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM,含8B至34B规模模型,创新空间视觉聚合器(SVA)提升视觉-语言集成,建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色,尤其在高分辨率图像处理上,但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)
36 1
|
3月前
|
测试技术
华人团队推出视频扩展模型MOTIA
华人团队推出视频扩展模型MOTIA,通过智能算法扩展视频内容,适应不同设备和场景。该模型分为输入特定适应和模式感知扩展两阶段,有效保持视频帧内帧间一致性,提升扩展质量。在DAVIS和YouTube-VOS基准上超越现有先进方法,且无需大量任务调整,降低创作者的时间成本。然而,源视频信息不足或模式不明显时,MOTIA性能受限,且对计算资源要求较高。
87 2
华人团队推出视频扩展模型MOTIA
|
3月前
|
域名解析 负载均衡 网络协议
阿里云基础设施网络研发团队参与论文获得CCS 2023 杰出论文奖
阿里云基础设施网络研发团队参与论文获得CCS 2023 杰出论文奖
|
3月前
|
人工智能 自然语言处理 数据可视化
书生·浦语 2.0 开源!回归语言建模本质,综合性能领先开源社区,魔搭最佳实践来啦!
1月17日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语2.0(InternLM2),模型开源可商用,魔搭社区作为首发平台,支持大家第一时间下载体验。
|
存储 SQL Cloud Native
LlamaIndex 联合创始人下场揭秘:如何使用私有数据提升 LLM 的能力?
如何使用私有数据最大化发挥 LLM 的能力?LlamaIndex 可以解决这一问题。LlamaIndex 是一个简单、灵活、集中的接口,可用于连接外部数据和 LLMs。
419 0
|
机器学习/深度学习 人工智能 安全
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
175 0
|
机器学习/深度学习 人工智能 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(2)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
208 0
|
机器学习/深度学习 数据采集 人工智能
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(2)
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
211 0
|
人工智能 编解码 自然语言处理
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
160 0
|
机器学习/深度学习 存储 人工智能
罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺
罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺
314 0