Red Team
在OpenAI中有如下三个概念
红队(Red team):指代参与红队测试活动的团队或个人。他们可以是组织内部的员工,也可以是外部的独立专家。
红队测试网络(Red teaming network):OpenAI 组建了一个 "红队测试网络",由外部安全研究者、伦理学家、领域专家等组成,为模型和系统把脉,提供多元视角的反馈。
红队测试系统(Red teaming system):"红队测试系统" 则是一整套方法、流程和工具的集合,用于系统性地开展红队测试工作。它包括确定测试目标、招募红队成员、制定测试计划、实施测试、分析结果、制定和跟踪整改措施等一系列活动。
"红队" 是 "红队测试系统" 的执行者。一个成熟、健康的红队测试系统,需要建立稳定的“红队测试网络”,以支撑测试工作的专业性和多样性。同时,高质量的红队反馈也为红队测试系统的持续改进提供了关键输入。相互支持,共同守护 AI 系统的安全。
当前红队测试主要依赖专家的手工评估,成本高,难以规模化。未来还是相加强自动化的能力,尤其是在面对模型的已知风险、分享维度明确的场景,提高自动化的能力可以更加高效和低成本的完成该部分的红队测试。但是对于未知的风险,专家的分析仍然是难以被替代,同时对于红队中的专家的多样性也是一个挑战,红队需要吸纳更多的观点和方法。OpenAI在红队测试中一个成功案例发生在 DALL-E 2 的安全审查中。当时红队成员发现,恶意用户可能会使用 "视觉同义词"(如用 ""暗红色液体"" 替代 ""血液"")来规避内容审核。这一发现直接推动了 OpenAI 开发更强大的多模态分类器,综合分析文本和图像,以识别此类投机取巧的行为。同时,这一风险也被明确写入 DALL-E 的内容政策,严格禁止用户通过任何变体表达来规避审核。这个例子生动体现了从红队发现问题,到政策完善再到技术升级的全流程闭环,也证明了红队工作的价值所在。类似的案例还有很多,红队就像一面镜子,帮助我们审视自己在安全和责任方面做得如何,是 AI 研发团队必不可少的合作伙伴。