使用开源GenAI时需要注意的10个问题

简介: 使用开源GenAI时需要注意的10个问题

本文来自 企业网D1net公众号

开源GenAI模型可以免费下载,在大规模使用时无需支付API调用费用,并且可以在公司防火墙内安全运行,但是不要放松警惕,风险仍然存在,一些风险不仅被放大了,还出现了一些特定于GenAI的新风险。


如今似乎任何人都可以制作AI模型。即使你没有训练数据或编程技巧,你也可以选择你喜欢的开源模型,对其进行调整,并以新的名字发布。


根据斯坦福大学在4月发布的AI指数报告,2023年发布了149个基础模型,其中三分之二是开源的,而且有大量的变体。Hugging Face目前仅跟踪用于文本生成的LLM就超过80000个,并且幸运的是,它有一个排行榜,可以让你快速根据各种基准对模型进行排序。尽管这些模型落后于大型商业模型,但它们正在迅速改进。


在查看开源GenAI时,排行榜是一个好的起点,EY Americas的GenAI负责人David Guarrera说,特别是Hugging Face在基准测试方面做得很好,他说。


“但是不要低估亲自尝试这些模型的价值,”他说,“因为它们是开源的,很容易做到这一点并进行切换。”他补充道,开源模型和它们的闭源商业替代品之间的性能差距正在缩小。


“开源很棒,”Uber Freight的工程主管Val Marchevsky补充道,“我觉得开源非常有价值。”它们不仅在性能上赶上了专有模型,而且有些提供了闭源模型无法匹敌的透明度,他说。“一些开源模型允许你查看用于推理的内容和不用于推理的内容,”他补充道,“可审核性对于防止幻觉非常重要。”


当然,还有价格优势。“如果你有一个恰好有容量的数据中心,为什么要付钱给别人?”他说。


公司已经非常熟悉使用开源代码。根据Synopsys在2月发布的开源安全和风险分析,96%的所有商业代码库包含开源组件。


由于所有这些经验,公司应该知道如何确保它们使用的是适当许可的代码,如何检查漏洞以及如何保持所有内容的最新状态。然而,一些规则和最佳实践有一些特别的细微差别,公司可能会忽略。以下是最重要的几点。




1奇怪的新许可条款


不同开源许可证类型的情况已经足够复杂了。项目是否可以安全用于商业用途,还是只能用于非商业用途?可以修改和分发吗?可以安全地并入专有代码库吗?现在,随着GenAI的出现,有一些新的皱褶。首先,有一些新的许可证类型,只在一个非常宽松的定义下才算开源。


例如,Llama许可证。Llama家族的模型是一些最好的开源LLM之一,但Meta正式将其描述为“一个定制的商业许可证,平衡了对模型的开放访问以及为帮助解决潜在的滥用而制定的责任和保护措施”。


企业被允许商业使用这些模型,开发人员可以在Llama基础模型的基础上创建和分发额外的工作,但它们不能使用Llama输出来改进其他LLM,除非它们本身是Llama的衍生品。而且,如果企业或其附属公司每月有超过700个用户,他们必须申请许可证,Meta可能会也可能不会授予。如果他们使用Llama 3,他们必须在显著位置包含“使用Llama 3构建”的标志。


类似地,Apple刚刚发布了OpenELM,根据“Apple示例代码许可证”,这也是为了这个场合而发明的,仅涵盖版权许可,不包括专利权。


Apple和Meta都没有使用公认的开源许可证,但代码实际上是开放的。Apple实际上不仅发布了代码,还发布了模型权重、训练数据集、训练日志和预训练配置。这就引出了开源许可的另一个方面。传统的开源软件就是代码。它是开源的,意味着你可以看到它的作用以及是否存在潜在的问题或漏洞。


然而,GenAI不仅仅是代码。它还包括训练数据、模型权重和微调。所有这些都是了解模型工作原理并识别潜在偏见的关键。一个模型如果训练在地平说阴谋论的存档上,它将无法回答科学问题,或者由朝鲜黑客进行微调的模型可能无法正确识别恶意软件。那么,开源LLM是否发布所有这些信息?这取决于模型,甚至取决于模型的特定版本,因为没有标准。


“有时它们会提供代码,但如果你没有微调,你可能会花费很多钱才能达到相当的性能,”卡内基梅隆大学AI教授、前普华永道全球AI负责人Anand Rao说。




2技能短缺


开源通常是一种自助式的努力。公司可以下载代码,但然后它们需要内部专家或雇佣的顾问来使一切正常工作。这在GenAI领域是一个大问题。没有人有多年的经验,因为这项技术太新了。如果一家公司刚刚开始使用GenAI,或者它想快速推进,Rao说,最好从专有平台开始。


“下载开源版本需要专业知识,”他说。但是,一旦公司完成了概念验证,将模型部署到生产中,并开始产生费用,那么就可能是时候考虑开源替代品了,他补充道。


行业经验的缺乏也给开源GenAI领域带来了另一个问题。开源的一个关键优势是,许多人查看代码,可以发现编程错误、安全漏洞和其他弱点。但是,这种“千眼”方法只有在确实有千眼能够理解他们看到的东西时才起作用。




3越狱


LLM特别容易越狱,即用户给它一个巧妙的提示,使其违反其指南,例如生成恶意软件。在商业项目中,有高度动机的供应商在背后支持他们,可以识别这些漏洞并在它们出现时关闭它们。此外,供应商可以访问用户发送给公共版本模型的提示,因此他们可以监控是否有可疑活动的迹象。


恶意行为者不太可能购买在私人环境中运行的企业版本的产品,这些提示不会共享给供应商以改进模型。对于开源项目,团队中可能没有任何人负责寻找越狱的迹象。坏人可以免费下载这些模型,并在他们自己的环境中运行,以测试潜在的漏洞。坏人还可以看到模型使用的系统提示以及模型开发人员可能构建的任何其他防护措施,从而在越狱时占得先机。


“这不仅仅是试验和错误,”Rao说。攻击者可以分析训练数据,例如,找出使模型误识别图像的方法,或者当它遇到看似无害的提示时出错。


如果一个AI模型在其输出上添加水印,恶意行为者可能会分析代码以逆向工程过程,以去除水印。攻击者还可以分析模型或其他支持代码和工具,找出漏洞区域。


“你可以用请求淹没基础设施,这样模型就不会工作了,”全球数字化转型咨询公司Nortal的高级数据科学家和能力主管Elena Sügis说。“当模型是更大系统的一部分时,它的输出被系统的另一个部分使用,如果我们可以攻击模型产生输出的方式,它将扰乱整个系统,这对企业来说可能是危险的。”




4训练数据的风险


艺术家、作家和其他版权持有者正左和右地起诉大型AI公司。但是,如果他们认为他们的知识产权被一个开源模型侵犯了,而唯一有深口袋的是那些将该模型纳入其产品或服务的企业用户呢?企业用户会被起诉吗?


“这是一个潜在的问题,没有人真正知道一些待决诉讼将如何解决,”EY的Guarrera说。我们可能正走向一个必须对数据集进行某种补偿的世界,他说。“大科技公司更有能力花钱来应对可能围绕版权的风暴。”


大型商业供应商不仅有钱购买训练数据和打官司,他们也有钱购买策划的数据集,Sügis说。免费的公共数据集不仅包含未经许可使用的版权内容。它们还充满了不准确和有偏见的信息、恶意软件和其他可能降低输出质量的材料。


“许多模型开发者正在谈论使用策划的数据,”她说。“这比你将整个互联网扔给它进行训练要贵得多。”




5新的数据泄露渠道


由于GenAI项目不仅仅是代码,还有更多潜在的数据暴露风险。LLM(大型语言模型)可能在多个方面受到恶意行为者的攻击。他们可能会渗透到管理不善的项目开发团队中,在软件中添加恶意代码。但他们也可能会毒害训练数据、微调或权重,Sügis说。


“黑客可能会用恶意代码示例重新训练模型,这样它就会侵入用户的基础设施,”她说。“或者他们可以用假新闻和错误信息训练它。”


另一个攻击向量是模型的系统提示。


“这通常对用户是隐藏的,”她补充道。“系统提示可能包含让模型识别不受欢迎或不道德行为的防护措施或安全规则。”


专有模型不会公开其系统提示,她说,访问这些提示可能会让黑客找到攻击模型的方法。




6缺少防护措施


一些开源团体可能在哲学上反对在其模型上设置防护措施,或者他们认为模型在没有任何限制的情况下表现会更好。而有些模型则专门为恶意用途而创建。企业在选择LLM时可能不一定知道他们的模型属于哪一类。Nortal的Sügis说,目前没有独立机构评估开源GenAI模型的安全性。欧洲的《人工智能法案》将要求提供一些此类文件,但大部分规定要到2026年才会生效,她说。


“我会尽可能多地获取文档,测试和评估模型,并在公司内部实施一些防护措施,”她说。




7缺乏标准


用户驱动的开源项目通常基于标准,因为企业用户喜欢它们,并且希望实现互操作性。事实上,根据Linux基金会去年发布的一项对近500名技术专业人员的调查,71%的人更喜欢开源标准,相比之下只有10%的人更喜欢封闭标准。而生产专有软件的公司可能更希望将其客户困在其生态系统中。但如果你认为所有的开源GenAI都是基于标准的,那你就错了。


事实上,当大多数人谈论AI标准时,他们谈论的是伦理、隐私和可解释性等内容。而在这一领域确实有一些工作正在进行,例如去年12月发布的ISO/IEC 42001人工智能管理系统标准。4月29日,NIST发布了一个AI标准草案,涵盖了很多内容,从创建一个关于AI的通用语言开始,也主要关注风险和治理问题。但在技术标准方面,进展不大。


“这是一个非常初期的领域,”云原生计算基金会的CIO兼生态系统负责人Taylor Dolezal说。“我看到一些关于数据分类的好对话,讨论为训练数据、API和提示设置标准格式。”但到目前为止,这些只是对话。


他说,目前已经有一个向量数据库的通用数据标准,但没有标准查询语言。关于自主代理的标准呢?


“我还没有看到,但我希望看到,”他说。“找出不仅让代理执行特定任务的方法,还要把这些任务联系在一起。”


用于创建代理的最常见工具LangChain更像是一个框架而不是标准,他说。而用户公司,即那些对标准有需求的公司,还没有准备好,“大多数最终用户在实际操作之前并不知道他们想要什么。”


相反,他说,人们更有可能将大供应商的API和接口视为潜在的事实标准。“这就是我看到人们在做的事,”他说。





8缺乏透明度


你可能认为开源模型本质上更透明,但情况可能并非总是如此。大型商业项目可能有更多资源来创建文档,BI软件供应商Vero AI的CEO Eric Sydell说。该公司最近发布了一份报告,基于可见性、完整性、立法准备情况和透明度等方面对主要的GenAI模型进行了评分。Google的Gemini和OpenAI的GPT-4排名最高。


“仅仅因为它们是开源的,并不意味着它们提供相同的信息,关于模型的背景和开发方式,”Sydell说。“目前,大型商业模型在这方面做得更好。”


以偏见为例。


“我们发现我们的排名中前两名的闭源模型在这方面有相当多的文档,并投入时间探讨这个问题,”他说。




9源代码问题


开源项目经常被分叉,但当这种情况发生在GenAI时,你会面临传统软件中不存在的风险。比如,一个基础模型使用了有问题的训练数据集,有人从中创建了一个新模型,那么它将继承这些问题,Sonatype的产品高级副总裁Tyler Warden说。


“在权重和调优方面有很多黑箱操作,”他说。


事实上,这些问题可能追溯到好几级代码,最终模型的代码中不会显示出来。当公司下载一个模型供自己使用时,这个模型与原始来源的距离越来越远。原始基础模型可能已经修复了这些问题,但根据上下链的透明度和沟通量,最后一个模型的开发人员可能甚至不知道这些修复。




10新的影子IT


使用开源组件作为软件开发过程一部分的公司,通常会有相应的流程来审核库并确保组件是最新的。他们会确保项目有良好的支持,安全问题得到处理,并且软件具有适当的许可证条款。


然而,对于GenAI,负责审核的人可能不知道要查找什么。此外,GenAI项目有时会脱离标准的软件开发流程。它们可能来自数据科学团队或秘密项目。开发人员可能会下载模型来试验,最终被更广泛地使用。或者业务用户自己可能会按照在线教程设置他们自己的GenAI,完全绕过IT部门。


GenAI的最新发展,自治代理,有可能将巨大的力量交到这些系统手中,从而将这种类型的影子IT的风险提升到新的高度。


“如果你要进行实验,创建一个容器,以一种对组织安全的方式进行,”Corelight开源高级总监Kelley Misata说。她表示,这应该由公司的风险管理团队负责,并且确保开发人员以及整个业务理解有一个流程的是CIO的责任。


“他们是最适合设定文化的人,”她说。“让我们利用开源提供的创新和所有伟大之处,但要睁大眼睛进入。”


两全其美的方式


一些公司在寻找开源的低成本、透明度、隐私和控制,但希望有一个供应商来提供治理、长期可持续性和支持。在传统的开源世界中,有很多供应商可以做到这一点,比如Red Hat、MariaDB、Docker、Automattic等。


“它们为大型企业提供了一定程度的安全性和保障,”AArete数据科学和分析副总裁Priya Iragavarapu说。“这几乎是一种降低风险的方式。”


她说,在GenAI领域,这样的供应商还不多,但情况正在开始改变。

相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】开源OR闭源,这是一个问题?|谁能引领未来
【大模型】开源OR闭源,这是一个问题?|谁能引领未来
22 0
|
7月前
|
分布式计算 大数据 Hadoop
开源大数据方案有哪些
开源大数据方案有哪些
115 0
|
1月前
|
机器学习/深度学习 Linux 应用服务中间件
开源还是闭源(=°Д°=)!!趋势表明,开源技术在诸多领域中日益受到重视
开源还是闭源(=°Д°=)!!趋势表明,开源技术在诸多领域中日益受到重视
|
1月前
|
人工智能 API 数据安全/隐私保护
谁会主导AIGC企业应用?
【1月更文挑战第23天】谁会主导AIGC企业应用?
46 1
谁会主导AIGC企业应用?
|
1月前
|
消息中间件 人工智能 安全
【天幕系列 02】开源力量:揭示开源软件如何成为技术演进与社会发展的引擎
【天幕系列 02】开源力量:揭示开源软件如何成为技术演进与社会发展的引擎
60 3
|
1月前
|
机器学习/深度学习 人工智能 安全
开源软件:推动技术发展的强大引擎
开源软件:推动技术发展的强大引擎
62 0
|
1月前
|
机器学习/深度学习 自然语言处理 算法
浅谈开源和闭源的认知
浅谈开源和闭源的认知
|
分布式计算 Cloud Native 数据可视化
重磅报告发布,从102个开源大数据项目深度研究开源大数据技术发展!
《2022年开源大数据热力报告》,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品。报告基于公开数据研究最活跃的102个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”。
重磅报告发布,从102个开源大数据项目深度研究开源大数据技术发展!
|
机器学习/深度学习 人工智能 自然语言处理
进击的 AI 框架,MindSpore 开源一周年
开源一年以来,累计发布 8 个新版本,汇聚超过 3000 名社区开发者的代码贡献,社区访问量超千万;现拥有超过 100 个大的基础模型,涵盖计算机视觉、NLP 等主流的 AI 和深度学习框架;累计 PR 数 超过 2 万个,下载量高达 22 万次,下载用户遍布全球;超过 100 所高校参与了社区活动,超过 40 家科研机构利用它去发表原创论文。这就是全场景 AI 计算框架 MindSpore 开源一年来取得的成绩!
250 0
进击的 AI 框架,MindSpore 开源一周年
|
消息中间件 Kubernetes Oracle
2022 年之后的开源愿景
  在开源领域工作了十多年之后,经历了从初创公司到世界上最大的开源公司,并推出了我的开源项目资助平台,我终于有了一个想法。“开源”一词并不足以涵盖现代开放软件所有可感知的价值,开源需要一个更广阔的视野,以及一个支持开放治理和开放资金的基础设施。   在过去,开源的价值在于源代码,我们可以从自由软件的自由度和开源定义的发布标准中感知到这一点。但现在情况不一样了。现如今,开源产品的生产速度很快,但腐烂和过时的速度更快。除了源代码提供的价值之外,开源项目还有其他重要的特征。开源的价值在于项目被采用,有时候一个项目会成为某种技术事实上的标准(比如用于消息传递的 Apache Kafka)。开源的价值
197 0