DeepMind提出了一种祖安AI,专门输出网络攻击性语言

简介: DeepMind提出了一种祖安AI,专门输出网络攻击性语言

语言模型 (LM) 常常存在生成攻击性语言的潜在危害,这也影响了模型的部署。一些研究尝试使用人工注释器手写测试用例,以在部署之前识别有害行为。然而,人工注释成本高昂,限制了测试用例的数量和多样性。

基于此,来自 DeepMind 的研究者通过使用另一个 LM 生成测试用例来自动发现目标 LM 未来可能的有害表现。该研究使用检测攻击性内容的分类器,来评估目标 LM 对测试问题的回答质量,实验中在 280B 参数 LM 聊天机器人中发现了数以万计的攻击性回答。


论文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

该研究探索了从零样本生成到强化学习的多种方法,以生成具有多样性和不同难度的测试用例。此外,该研究使用 prompt 工程来控制 LM 生成的测试用例以发现其他危害,自动找出聊天机器人会以攻击性方式与之讨论的人群、找出泄露隐私信息等对话过程存在危害的情况。总体而言,该研究提出的 Red Teaming LM 是一种很有前途的工具,用于在实际用户使用之前发现和修复各种不良的 LM 行为。

GPT-3 和 Gopher 等大型生成语言模型具有生成高质量文本的非凡能力,但它们很难在现实世界中部署,存在生成有害文本的风险。实际上,即使是很小的危害风险在实际应用中也是不可接受的。

例如,2016 年,微软发布了 Tay Twitter 机器人,可以自动发推文以响应用户。仅在 16 个小时内,Tay 就因发出带有种族主义和色情信息的推文后被微软下架,当时已发送给超过 50000 名关注者。

问题在于有太多可能的输入会导致模型生成有害文本,因此,很难让模型在部署到现实世界之前就找出所有的失败情况。DeepMind 研究的目标是通过自动查找失败案例(或「红队(red teaming)」)来补充人工手动测试,并减少关键疏忽。该研究使用语言模型本身生成测试用例,并使用分类器检测测试用例上的各种有害行为,如下图所示:

「基于 LM 的 red teaming」使我们可以找出成千上万种不同的失败案例,而不用手动写出它们。

该研究使用对话作为测试平台来检验其假设,即 LM 是红队的工具。DeepMind 这项研究的首要目标就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻击性回复的文本。DPG 通过以手写文本前缀或 prompt 为条件,使用 Gopher LM 生成对话话语。Gopher LM 则是一个预训练的、从左到右的 280B 参数 transformer LM,并在互联网文本等数据上进行了训练。

攻击性语言:仇恨言论、脏话、性骚扰、歧视性语言等

数据泄露:从训练语料库中生成有版权或私人可识别信息

联系信息生成:引导用户发送不必要的邮件或给真人打电话

分布式偏见(distributional bias):以一种相较其他群体不公平的方式讨论某些群体

会话伤害:长对话场景中出现的攻击性语言


为了使用语言模型生成测试用例,研究者探索了很多方法,从基于 prompt 的生成和小样本学习到监督式微调和强化学习,并生成了更多样化的测试用例。

研究者指出,一旦发现失败案例,通过以下方式修复有害模型行为将变得更容易:

将有害输出中经常出现的某些短语列入黑名单,防止模型生成包含高风险短语的输出;

查找模型引用的攻击性训练数据,在训练模型的未来迭代时删除该数据;

使用某种输入所需行为的示例来增强模型的 prompt(条件文本);

训练模型以最小化给定测试输入生成有害输出的可能性。


如下图 2 所示,0.5M 的零样本测试用例在 3.7% 的时间内引发了攻击性回复,导致出现 18444 个失败的测试用例。SFS 利用零样本测试用例来提高攻击性,同时保持相似的测试用例多样性。


为了理解 DPG 方法失败的原因,该研究将引起攻击性回复的测试用例进行聚类,并使用 FastText(Joulin et al., 2017)嵌入每个单词,计算每个测试用例的平均词袋嵌入。最终,该研究使用 k-means 聚类在 18k 个引发攻击性回复的问题上形成了 100 个集群,下表 1 显示了来自部分集群的问题。


此外,该研究还通过分析攻击性回复来改进目标 LM。该研究标记了输出中最有可能导致攻击性分类的 100 个名词短语,下表 2 展示了使用标记名词短语的 DPG 回复。


总体而言,语言模型是一种非常有效的工具,可用于发现语言模型何时会表现出各种不良方式。在目前的工作中,研究人员专注于当今语言模型所带来的 red team 风险。将来,这种方法还可用于先发制人地找到来自高级机器学习系统的其他潜在危害,如内部错位或客观鲁棒性问题。

这种方法只是高可信度语言模型开发的一个组成部分:DeepMind 将 red team 视为一种工具,用于发现语言模型中的危害并减轻它们的危害。

参考链接:https://www.deepmind.com/research/publications/2022/Red-Teaming-Language-Models-with-Language-Models

相关文章
|
6月前
|
人工智能 云栖大会 调度
「2025云栖大会」“简单易用的智能云网络,加速客户AI创新”专场分论坛诚邀莅临
”简单易用的智能云网络,加速客户AI创新“专场分论坛将于9月24日13:30-17:00在云栖小镇D1-5号馆举办,本场技术分论坛将发布多项云网络创新成果,深度揭秘支撑AI时代的超低时延、自适应调度与跨域协同核心技术。同时来自领先企业的技术先锋将首次公开其在模型训练、企业出海等高复杂场景中的突破性实践,展现如何通过下一代云网络实现算力效率跃升与成本重构,定义AI时代网络新范式。
229 4
|
7月前
|
机器学习/深度学习 传感器 人工智能
深度神经网络驱动的AI Agent
深度神经网络(DNN)驱动的AI Agent在实时预测中展现出强大能力,能够通过在线学习快速适应变化,广泛应用于金融、自动驾驶等领域,提升预测效率与决策水平。
|
10月前
|
人工智能 运维 安全
中企出海大会|打造全球化云计算一张网,云网络助力中企出海和AI创新
阿里云网络作为全球化战略的重要组成部分,致力于打造具备AI技术服务能力和全球竞争力的云计算网络。通过高质量互联网服务、全球化网络覆盖等措施,支持企业高效出海。过去一年,阿里云持续加大基础设施投入,优化海外EIP、GA产品,强化金融科技与AI场景支持。例如,携程、美的等企业借助阿里云实现业务全球化;同时,阿里云网络在弹性、安全及性能方面不断升级,推动中企迎接AI浪潮并服务全球用户。
1423 8
|
6月前
|
人工智能 运维 安全
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
迈格网络推出“天机”新版本,以AI自学习、全端防护、主动安全三大核心能力,重构网络安全防线。融合AI引擎与DeepSeek-R1模型,实现威胁预测、零日防御、自动化响应,覆盖Web、APP、小程序全场景,助力企业从被动防御迈向主动免疫,护航数字化转型。
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
|
6月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
11月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
777 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
9月前
|
人工智能 安全 网络安全
网络安全厂商F5推出AI Gateway,化解大模型应用风险
网络安全厂商F5推出AI Gateway,化解大模型应用风险
295 0
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1286 52
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
638 31

热门文章

最新文章