DeepMind提出了一种祖安AI,专门输出网络攻击性语言

简介: DeepMind提出了一种祖安AI,专门输出网络攻击性语言

语言模型 (LM) 常常存在生成攻击性语言的潜在危害,这也影响了模型的部署。一些研究尝试使用人工注释器手写测试用例,以在部署之前识别有害行为。然而,人工注释成本高昂,限制了测试用例的数量和多样性。

基于此,来自 DeepMind 的研究者通过使用另一个 LM 生成测试用例来自动发现目标 LM 未来可能的有害表现。该研究使用检测攻击性内容的分类器,来评估目标 LM 对测试问题的回答质量,实验中在 280B 参数 LM 聊天机器人中发现了数以万计的攻击性回答。


论文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

该研究探索了从零样本生成到强化学习的多种方法,以生成具有多样性和不同难度的测试用例。此外,该研究使用 prompt 工程来控制 LM 生成的测试用例以发现其他危害,自动找出聊天机器人会以攻击性方式与之讨论的人群、找出泄露隐私信息等对话过程存在危害的情况。总体而言,该研究提出的 Red Teaming LM 是一种很有前途的工具,用于在实际用户使用之前发现和修复各种不良的 LM 行为。

GPT-3 和 Gopher 等大型生成语言模型具有生成高质量文本的非凡能力,但它们很难在现实世界中部署,存在生成有害文本的风险。实际上,即使是很小的危害风险在实际应用中也是不可接受的。

例如,2016 年,微软发布了 Tay Twitter 机器人,可以自动发推文以响应用户。仅在 16 个小时内,Tay 就因发出带有种族主义和色情信息的推文后被微软下架,当时已发送给超过 50000 名关注者。

问题在于有太多可能的输入会导致模型生成有害文本,因此,很难让模型在部署到现实世界之前就找出所有的失败情况。DeepMind 研究的目标是通过自动查找失败案例(或「红队(red teaming)」)来补充人工手动测试,并减少关键疏忽。该研究使用语言模型本身生成测试用例,并使用分类器检测测试用例上的各种有害行为,如下图所示:

「基于 LM 的 red teaming」使我们可以找出成千上万种不同的失败案例,而不用手动写出它们。

该研究使用对话作为测试平台来检验其假设,即 LM 是红队的工具。DeepMind 这项研究的首要目标就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻击性回复的文本。DPG 通过以手写文本前缀或 prompt 为条件,使用 Gopher LM 生成对话话语。Gopher LM 则是一个预训练的、从左到右的 280B 参数 transformer LM,并在互联网文本等数据上进行了训练。

攻击性语言:仇恨言论、脏话、性骚扰、歧视性语言等

数据泄露:从训练语料库中生成有版权或私人可识别信息

联系信息生成:引导用户发送不必要的邮件或给真人打电话

分布式偏见(distributional bias):以一种相较其他群体不公平的方式讨论某些群体

会话伤害:长对话场景中出现的攻击性语言


为了使用语言模型生成测试用例,研究者探索了很多方法,从基于 prompt 的生成和小样本学习到监督式微调和强化学习,并生成了更多样化的测试用例。

研究者指出,一旦发现失败案例,通过以下方式修复有害模型行为将变得更容易:

将有害输出中经常出现的某些短语列入黑名单,防止模型生成包含高风险短语的输出;

查找模型引用的攻击性训练数据,在训练模型的未来迭代时删除该数据;

使用某种输入所需行为的示例来增强模型的 prompt(条件文本);

训练模型以最小化给定测试输入生成有害输出的可能性。


如下图 2 所示,0.5M 的零样本测试用例在 3.7% 的时间内引发了攻击性回复,导致出现 18444 个失败的测试用例。SFS 利用零样本测试用例来提高攻击性,同时保持相似的测试用例多样性。


为了理解 DPG 方法失败的原因,该研究将引起攻击性回复的测试用例进行聚类,并使用 FastText(Joulin et al., 2017)嵌入每个单词,计算每个测试用例的平均词袋嵌入。最终,该研究使用 k-means 聚类在 18k 个引发攻击性回复的问题上形成了 100 个集群,下表 1 显示了来自部分集群的问题。


此外,该研究还通过分析攻击性回复来改进目标 LM。该研究标记了输出中最有可能导致攻击性分类的 100 个名词短语,下表 2 展示了使用标记名词短语的 DPG 回复。


总体而言,语言模型是一种非常有效的工具,可用于发现语言模型何时会表现出各种不良方式。在目前的工作中,研究人员专注于当今语言模型所带来的 red team 风险。将来,这种方法还可用于先发制人地找到来自高级机器学习系统的其他潜在危害,如内部错位或客观鲁棒性问题。

这种方法只是高可信度语言模型开发的一个组成部分:DeepMind 将 red team 视为一种工具,用于发现语言模型中的危害并减轻它们的危害。

参考链接:https://www.deepmind.com/research/publications/2022/Red-Teaming-Language-Models-with-Language-Models

相关文章
|
12月前
|
人工智能 移动开发 监控
「10秒发现,5分钟定位」- 阿里云EMAS应用监控引领全链路智能监控新时代
阿里云 EMAS 应用监控是面向客户端的全方位监控服务平台,覆盖移动端和Web/H5端。基于阿里巴巴深厚的技术沉淀,提供稳定高效的监控服务,帮助开发者实时掌握应用性能与稳定性情况,快速构建“感知 > 定位 > 修复”运维闭环,保障应用质量,优化用户体验。
584 13
「10秒发现,5分钟定位」- 阿里云EMAS应用监控引领全链路智能监控新时代
|
10月前
|
存储 安全 API
电商API合规性:确保数据隐私与法规遵守
在数字化电商时代,API作为连接平台、商家与用户的关键枢纽,承载大量敏感数据。面对日益严格的数据隐私法规,如GDPR、CCPA和中国《个人信息保护法》,合规成为企业发展的核心挑战。本文探讨如何通过系统化方法保障电商API的数据安全与法规遵循,涵盖法规要点、技术实现与最佳实践,助力企业在合规基础上稳健发展。
469 0
|
数据采集 监控 JavaScript
如何使用 D3.js 处理大规模的地理数据集?
如何使用 D3.js 处理大规模的地理数据集?
|
Unix Linux 编译器
windows下和linux下cmake的规则有区别吗
通过合理使用CMake的条件逻辑和平台特定的配置选项,开发者可以编写更加灵活和健壮的CMake脚本,确保项目在Windows和Linux上的一致性和可移植性。
671 76
|
自然语言处理 搜索推荐 数据挖掘
自然语言处理(NLP)技术对教育领域产生了深远的影响
【7月更文挑战第29天】自然语言处理(NLP)技术对教育领域产生了深远的影响
869 14
|
存储 Windows
【Azure Cloud Service】微软云服务上的日志收集方法
本文介绍了在使用微软云服务(Cloud Service Extended Support)时,如何收集日志以分析未记录在应用日志中的服务异常。由于云服务基于传统虚拟机模式,需通过远程桌面登录实例,查看IIS、Windows Event及云服务组件日志(如WindowsAzureGuestAgent)。此外,可使用CollectGuestLogs.exe工具打包日志,或通过“File Server Resource Manager”检查日志存储配额是否不足。附参考文档链接供深入学习。
393 29
|
存储 Android开发 索引
鸿蒙特效教程10-卡片展开/收起效果
本教程将详细讲解如何在HarmonyOS中实现卡片的展开/收起效果,通过这个实例,你将掌握ArkUI中状态管理和动画实现的核心技巧。
540 6
鸿蒙特效教程10-卡片展开/收起效果
|
11月前
快手抖音主播私信发送脚本,批量自动群发主播粉丝列表,功能完全按无障碍开发
这是一款快手主播精准私信工具(客户端版v1.1),可自动向快手、抖音主播或其粉丝发送私信,帮助MAC机构与主播合作或推广产品。
|
机器学习/深度学习 文字识别 算法
SVM是如何工作的
SVM是如何工作的
865 18
|
Linux 区块链 Python
Python实用记录(十三):python脚本打包exe文件并运行
这篇文章介绍了如何使用PyInstaller将Python脚本打包成可执行文件(exe),并提供了详细的步骤和注意事项。
819 1
Python实用记录(十三):python脚本打包exe文件并运行