openAI的Red Team

2024-11-19 913

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： openAI的Red Team

Red Team

在OpenAI中有如下三个概念
红队（Red team）：指代参与红队测试活动的团队或个人。他们可以是组织内部的员工，也可以是外部的独立专家。
红队测试网络（Red teaming network）：OpenAI 组建了一个 "红队测试网络"，由外部安全研究者、伦理学家、领域专家等组成，为模型和系统把脉，提供多元视角的反馈。
红队测试系统（Red teaming system）："红队测试系统" 则是一整套方法、流程和工具的集合，用于系统性地开展红队测试工作。它包括确定测试目标、招募红队成员、制定测试计划、实施测试、分析结果、制定和跟踪整改措施等一系列活动。

"红队" 是 "红队测试系统" 的执行者。一个成熟、健康的红队测试系统，需要建立稳定的“红队测试网络”，以支撑测试工作的专业性和多样性。同时，高质量的红队反馈也为红队测试系统的持续改进提供了关键输入。相互支持，共同守护 AI 系统的安全。

当前红队测试主要依赖专家的手工评估，成本高，难以规模化。未来还是相加强自动化的能力，尤其是在面对模型的已知风险、分享维度明确的场景，提高自动化的能力可以更加高效和低成本的完成该部分的红队测试。但是对于未知的风险，专家的分析仍然是难以被替代，同时对于红队中的专家的多样性也是一个挑战，红队需要吸纳更多的观点和方法。OpenAI在红队测试中一个成功案例发生在 DALL-E 2 的安全审查中。当时红队成员发现，恶意用户可能会使用 "视觉同义词"（如用 ""暗红色液体"" 替代 ""血液""）来规避内容审核。这一发现直接推动了 OpenAI 开发更强大的多模态分类器，综合分析文本和图像，以识别此类投机取巧的行为。同时，这一风险也被明确写入 DALL-E 的内容政策，严格禁止用户通过任何变体表达来规避审核。这个例子生动体现了从红队发现问题，到政策完善再到技术升级的全流程闭环，也证明了红队工作的价值所在。类似的案例还有很多，红队就像一面镜子，帮助我们审视自己在安全和责任方面做得如何，是 AI 研发团队必不可少的合作伙伴。

openAI的Red Team

Red Team

云原生

热门文章

最新文章

相关电子书