在当今的技术发展中,人工智能模型,尤其是大型语言模型,已成为各行各业不可或缺的工具。然而,随着这些模型的广泛应用,它们的安全性问题也日益凸显。最近,一项新的研究成功地从未公开的黑盒生产语言模型中提取出了关键信息,这一发现无疑为AI模型的安全性研究领域带来了新的挑战。
这项研究的核心在于一种新型的模型窃取攻击方法,该方法能够以极低的成本,通过标准的API访问,从OpenAI的ada和babbage等语言模型中恢复出嵌入投影层的完整信息。这一成就首次证实了这些被广泛认为是黑盒的模型实际上具有可以被探测和提取的隐藏维度,分别为1024和2048。
文章首先揭示了一个事实:尽管大型语言模型的内部结构和权重参数通常不公开,但通过API接口,这些模型的功能是可以被访问的。研究者提出了一个关键问题:攻击者能够通过API查询了解到多少关于生产语言模型的信息?这个问题直接关联到了模型窃取的核心——即通过API查询来提取模型权重的能力。
研究者们提出的攻击方法是对传统模型重建方法的一种颠覆。传统的模型重建通常从输入层开始,自下而上地进行,而这种新型攻击则是自上而下,直接针对模型的最后层进行。由于语言模型的最后一层负责将隐藏维度映射到更高维度的logit向量,这一层具有低秩特性,因此通过有针对性的API查询,可以有效地提取出模型的嵌入维度或最终权重矩阵。
文章强调,通过窃取模型的嵌入投影层,不仅可以揭示模型的宽度,即其参数数量,还能在一定程度上减少模型的“黑盒”属性,为未来的攻击提供了可能的切入点。尽管目前这种攻击只能恢复模型的一部分信息,但这种能力的证实已经足够引起业界的广泛关注。
研究者还探讨了可能的防御措施,包括与OpenAI的合作,验证了攻击方法的有效性,并在攻击后删除了所有相关数据。作为对这种攻击的回应,OpenAI和Google都已经修改了他们的API,引入了新的缓解措施和防御机制,以提高攻击的难度。
此外,文章还回顾了相关工作,讨论了模型窃取攻击的目标,以及如何通过优化攻击算法来提高攻击效率。研究者提出了一种基于二分搜索的攻击方法,用于从不提供logprob信息的API中恢复完整的logit向量,尽管这种方法的成本较高。
文章的最后部分对实验结果进行了评估,证明了攻击方法在多个模型上的成功应用,并讨论了如何通过添加噪声或限制API参数来防御这种攻击。研究者希望本文能够激发对机器学习模型实际攻击的研究,以最终开发出更安全、更可靠的系统。
这项研究提供了对当前AI模型安全性的深刻洞察,并为未来的安全策略提供了宝贵的参考。然而,这种攻击方法的提出也意味着模型提供者需要更加重视模型的安全性设计,以防止潜在的窃取风险。