只需两步，让大模型智能体社区相信你是秦始皇-阿里云开发者社区

只需两步，让大模型智能体社区相信你是秦始皇

2024-08-16 177 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第16天】在信息爆炸时代，大型语言模型（LLM）快速发展并在多智能体系统中展现卓越能力，但也带来了安全性挑战，特别是知识操纵问题。上海交大与百川智能合作研究发现，在无明显提示下，LLM可能被操纵传播虚假或有害信息。研究构建了威胁模型和仿真环境，展示攻击者如何利用两阶段策略注入操纵知识而不削弱智能体功能。实验显示，这类知识能在多智能体间迅速传播并持久留存，凸显了加强安全措施的重要性。研究提出了使用“监护”智能体和事实核查工具等防御手段，并公开代码供同行复现研究。这项工作不仅揭示了潜在风险，还为建立更安全的多智能体系统提供了指导。论文已发布于arxiv.org。

在当今这个信息爆炸的时代，人工智能技术尤其是大型语言模型（LLM）的发展日新月异，它们在多智能体系统中的广泛应用，展现出了解决复杂问题和进行自主协商的非凡能力。然而，随着这些技术的快速融入日常生活，其安全性问题也逐渐浮现，尤其是关于知识操纵的隐患。最近，上海交通大学的研究人员与百川智能科技的团队合作，深入探讨了基于LLM的多智能体系统中知识被操纵传播的风险，并提出了一种新颖的两阶段攻击方法，以系统地探索在没有明确提示操纵的情况下，操纵知识（例如反事实知识和有害知识）传播的潜力。

这项研究首先构建了一个详细的威胁模型和全面的仿真环境，以模拟现实世界中多智能体部署在可信平台上的情形。研究团队通过这个环境，展示了攻击者如何利用LLM在处理世界知识方面的固有漏洞，来无意识地传播编造的信息。他们设计的攻击策略包括说服力注入和操纵知识注入两个阶段，通过这一策略，攻击者能够在不降低智能体在通信过程中的基础能力的前提下，成功诱导基于LLM的智能体传播反事实和有害知识。

实验结果表明，这种操纵知识的传播不仅在多智能体社区中迅速蔓延，而且还能通过流行的增强检索生成框架（RAG）持久存在。在这些框架中，一些良性智能体会存储和检索被操纵的聊天记录，用于未来的交互。这种持久性表明，即使在交互结束后，良性智能体也可能继续受到操纵知识的影响。

研究者们强调了在基于LLM的多智能体系统中，对操纵知识传播的防御措施的迫切需求。他们建议引入“监护”智能体和先进的事实核查工具，以构建更为安全和可靠的多智能体平台。此外，研究还提供了相关代码的公开访问链接，以便其他研究者可以复现和进一步研究这些发现。

从积极的角度看，这项研究不仅揭示了LLM在多智能体系统中的潜在风险，而且为如何防范这些风险提供了宝贵的见解和方法。它强调了在设计和部署这些系统时，需要考虑到信息的安全性和准确性，以确保技术的健康和可持续发展。然而，从另一方面来看，这项研究也暴露了LLM在处理知识时存在的局限性，尤其是在验证输入信息的准确性和可靠性方面的不足。这提示我们在依赖这些模型进行决策支持时，需要谨慎行事。

此外，这项研究还引发了关于人工智能伦理和责任的重要讨论。随着LLM在各个领域的应用越来越广泛，如何确保它们不会成为传播错误信息或有害内容的工具，成为了一个亟待解决的问题。这不仅需要技术层面的创新，也需要法律、政策和社会各界的共同努力。

论文地址：https://arxiv.org/pdf/2407.07791

只需两步，让大模型智能体社区相信你是秦始皇

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

只需两步，让大模型智能体社区相信你是秦始皇

热门文章

最新文章

相关课程

相关电子书

相关实验场景