备案控制台

开发者社区 ModelScope模型即服务文章正文

模型进化狂飙，DetectGPT能否识别最新模型生成结果？（1）

2023-05-12 197

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 模型进化狂飙，DetectGPT能否识别最新模型生成结果？

模型进化狂飙，DetectGPT能否识别最新模型生成结果？

新智元 2023-04-23 15:18 发表于北京

以下文章来源于智源社区，作者智源社区

新智元报道

来源：智源社区作者：李灿

【新智元导读】语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。

在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。

Eric mitchell 是斯坦福大学计算机系四年级博士生，由Chelsea Finn 和 Christopher D. Manning 教授指导。研究目标是使神经网络中的知识更易于重用和更新,以适应这个持续变化的世界。研究兴趣为深度学习、元学习和持续学习，特别是在大语言模型的背景下。本科毕业于普林斯顿大学，曾在伦敦 DeepMind 担任研究实习生。曾担任纽约三星人工智能中心的一名研究工程师。空闲时间，他喜欢吉他和人声创作音乐，还喜欢户外活动，尤其是高尔夫和登山。引子：ChatGPT时代下的新困境

阅读时，如果一篇文章辞藻华丽,或是包含许多「看似合理」的例证,我们的大脑就会在潜意识里认为它是可信的，这是人类大脑最普遍的运行逻辑，而大语言模型的一大缺点便是模仿了人类的这一风格。所以它们写出来的文字可能非常通顺，而且看似很有说服力，但却缺少事实佐证，仅仅是华而不实。比如当我们让ChatGPT写一篇论文时，他会引经据典，分析的有理有据。但问题是，引用和证据都是他胡乱编写的。所以越来越多的人担心这些模型的出现会让网上充斥着各种错误信息，或是被学生利用来完成作业，阻碍他们的学习和写作能力。纽约时报最近做了一份关于世界各地学生对ChatGPT看法的调查。调查显示，许多学生认为固然ChatGPT能够帮助学习，但是它并不总是正确，还会帮助作弊。当然，语言模型的影响不只局限于教育界，就比如CNET（美国一家科技媒体）就发现，在其网站上，有包括个人理财，投资等在内的许多技术文章，都是由同一个模型生成的，这些文章很大一部分都有着巨大的事实错误。 因此：我们迫切需要一项新的技术来判断一篇文章是否为语言模型所作。正篇：如何开发用于检测语言模型的新模型

扬长避短：对减少样本量与提高精度的追求那么该如何实现这项针对语言模型(LM)的检测技术呢？首先，最简单的方法是直接训练另一个语言模型。该方法可以分为以下三步：

1. 收集大量的数据用于训练。

2. 训练一个二元分类器来区分人类文本和语言模型文本。

3. 最后我们便需要测试他的训练成果能否顺利泛化到测试集。

这种方法的优点是，检测模型可以非常灵活的学习各种强大的语言模型，从而在训练中展现出良好的分类效果。但其缺点也很明显。首先，我们需要获取大量的数据样本和分类器模型。其次，该类模型很容易过拟合，模型可能在训练集中取得很好的效果，但是如果我们用一些真正的文章来测试他时，模型往往表现不佳。另一种直观的方法是，基于源模型的零样本学习（zero-shot）检测方法。如果使用该方法，我们无须对需要判断的语言模型本身进行训练，只需要训练一个模型，然后对待检测文本计算每个词汇的对数概率（Log probability），如果语句的平均对数概率很高，或是他们的平均对数秩（(log-)rank）很低，那么我们就有理由相信它是由AI所写。

Q&A：请问我们该如何计算词汇的对数概率和文本的平均对数概率？ Eric：大语言模型可以给出下一个单词或是符号的概率分布，可以利用这个分布查询到待检验单词的对数概率，然后就可以求平均值获得平均对数概率。

这种方法的优点便是不需要收集大量数据，而且可以泛化应用到各个领域。然而这种模型的判断并不准确。有了上面两种基本方案的铺垫，我们就自然而然的开始思考，是否有种模型，能够扬长避短，既能准确的给出检测结果，又能避免对大量数据的依赖呢？如果我们选取一段由模型生成的文本，然后稍稍改变他的措辞，文段的意思并不会改变，但是在模型看来，这段新文本出现的概率却往往比原始文本低很多。所以模型有一种奇怪的思维方式，它们会喜欢对文本进行某种组合，而非语义相同的另一种组合。基于这种现象，Eric提出的一个解决方案是：探究模型在候选段落周围的概率函数结构，以提高检测的准确性。通俗来说，我们不只是关注待检测文本本身出现的概率有多大，而是关注我们这段文字和一些对它进行细微修改后的文字相比，其概率是否是最大。扰动差异：对数概率局部结构的一种假设

对于模型生成的文本，我们假设x轴为我们所有可能的文本空间，也就是所有可能的单词序列组合；y轴为它对应的对数密度。如果我们取x轴上一点，然后移动它，从而从一个单词序列移动到另一个。如果这些序列是机器生成的，即使语义相似，只在组成上略有不同，其概率密度也会随着移动发生比较明显的变化，而且概率密度往往会明显降低。但是这种明显的变化只存在于模型输出的序列中，人类写出的文本往往没有这种特性。

下图中左边是模型生成序列的概率曲线，右边是人类文本的；其中红色五角星对应的序列是模型生成的文本，绿色五角星是人类所写的文本。只关注Y轴的话，我们可以看到这两段文字有着相同的绝对概率，这也导致如果使用上面提到的绝对概率判断方法，我们无法区分这两段文字，很容易造成判断失误；但是我们很明显可以看出他们附近曲线的差异非常明显，这也是关注周围概率的方法的显著优势。当然，这种假设是否正确合理呢？我们只需要用很多个模型生成一些文本，同时收集许多人类完成的文本，然后使用T5模型来对这些文本进行细微的修改，就能轻松得到X轴对应的数据。然后我们计算原始文本和添加扰动后的文本的对数概率，就可以轻松判断假设是否正确。

Q&A:请问您具体是如何生成扰动样本的？答：我会先随机生成一段原始文本，然后随机屏蔽15%的单词，最后用T5生成填充，重复一百次即可。

下图为人类和模型样本的扰动文本的对数概率分布，其中X轴代表对数概率，且越往右概率越高。左右图中各有一条竖线分别表示模型和人类原始文本（Original）的对数概率。然后左右图各有100个使用T5模型添加干扰后的文本用原始模型计算得到的概率分布，每段文本与原始文本仅有几个单词的区别。作者用另一条竖线表示该分布的对数概率平均值（Avg perturbed）。可以明显看到平均值比原始值更小。然后我们把两条线之间的距离称做扰动差异，在模型样本中，扰动差异比较大，而在人类样本中的扰动差异则小很多。 上图我们清晰地看到了扰动差异，当我们对模型生成的文本添加扰动时，对数概率很明显的下降了。随后Eric选取了300个人类所写的文字样本和模型生成的样本，用同样的方法添加扰动，然后计算了扰动后，原始模型输出的对数概率的变化。从下图我们可以看出，人类样本和模型样本有很好的分离,且模型生成的文本相对于人类编写的文本更容易受到扰动的影响，前者概率变化更大，且扰动对概率的消极影响更大。因此我们实际上可以以极高的精度对人类和模型样本进行分类。我们设置一个阈值，如果扰动差异小于零很多（Negative），便认定为机器所写，反之则视为人类所作。 总结一下就是：语言模型生成的样本倾向于对数概率的局部最大值，而人类文本却往往并非如此。实现DetectGPT：基于概率曲率的检测

文章标签：

机器学习/深度学习

人工智能

-开发达人-

目录

相关文章

蚝油菜花

|

3月前

|

人工智能自动驾驶决策智能

DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集，包含18,000个视频片段，涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础，并定义了动作指令跟随（AIF）基准，用于评估世界模型在执行动作控制的未来预测能力。

蚝油菜花

81 6 6

DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

一个臻吖

|

10月前

|

人工智能自动驾驶安全

破壁人AI百度：科技公司反内卷的典型样本

互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词，恰如其分的描述了互联网的现状，比如抖音开始做外卖，微信强推视频号，一直硝烟弥漫的电商市场，更是激战在社区团购上。

一个臻吖

75 3 3

游客kgtb45zruuoms

|

10月前

|

机器学习/深度学习数据可视化

如何解决大语言模型的幻觉问题

如何解决大语言模型的幻觉问题

游客kgtb45zruuoms

317 0 0

bruce_xiaowei

|

5月前

|

自然语言处理搜索推荐机器人

大语言模型及其应用场景

大语言模型（如通义千问）凭借强大的自然语言处理能力，在内容创作、对话系统、翻译、信息抽取、代码生成、智能搜索、教育、企业管理和法律等领域展现巨大潜力，助力提升各行业智能化水平。

bruce_xiaowei

458 0 0

dlwlrma-晴子

|

5月前

|

Java 程序员 Linux

Maven的基本安装与使用

Maven的基本安装与使用

dlwlrma-晴子

126 6 6

游客3hdikr2pn5ufu

|

6月前

|

人工智能自然语言处理自动驾驶

【通义】AI视界｜马斯克亲自辟谣：xAI不可能在特斯拉的推理计算机上运行

本文精选了24小时内的重要科技新闻，包括马斯克辟谣xAI不会运行在特斯拉计算机上、谷歌发布AlphaProteo AI模型、百度贴吧“弱智吧”成为AI训练佳选、荣耀推出跨应用智能体以及苹果即将在iOS 18.2中加入图像生成功能。更多内容请访问通义官网体验。

游客3hdikr2pn5ufu

215 3 3

小王老师呀

|

7月前

|

消息中间件安全 Java

Spring Boot 基于 SCRAM 认证集成 Kafka 的详解

【8月更文挑战第4天】本文详解Spring Boot结合SCRAM认证集成Kafka的过程。SCRAM为Kafka提供安全身份验证。首先确认Kafka服务已启用SCRAM，并准备认证凭据。接着，在`pom.xml`添加`spring-kafka`依赖，并在`application.properties`中配置Kafka属性，包括SASL_SSL协议与SCRAM-SHA-256机制。创建生产者与消费者类以实现消息的发送与接收功能。最后，通过实际消息传递测试集成效果与认证机制的有效性。

小王老师呀

248 4 4

爱你三千遍斯塔克

|

8月前

|

Java

软件开发常用之SpringBoot文件下载接口编写（下)，Vue+SpringBoot文件上传下载预览，服务器默认上传是1M，可以调节,调节文件上传大小写法,图片预览，如何预览后下次还能看到，预览写法

软件开发常用之SpringBoot文件下载接口编写（下)，Vue+SpringBoot文件上传下载预览，服务器默认上传是1M，可以调节,调节文件上传大小写法,图片预览，如何预览后下次还能看到，预览写法

爱你三千遍斯塔克

110 2 2

1941623231718325

|

10月前

|

安全 Linux Shell

Linux常用命令详解与实战应用

【5月更文挑战第7天】本文详述了Linux常用命令，包括文件与目录操作（ls, cd, pwd, cp, mv, rm）、文本处理（cat, grep, sed）及系统管理（top, df, du）命令。通过实例演示了如何使用这些命令，帮助读者理解和掌握Linux操作，提升系统管理效率。学习和熟练运用这些基础命令，是高效使用Linux的关键。

1941623231718325

78 3 3

游客2dnswgtrgjucq

|

人工智能 Python

百度飞桨图像分类------第一天(实现各类图像增广)

百度飞桨图像分类------第一天(实现各类图像增广)

游客2dnswgtrgjucq

235 0 0

百度飞桨图像分类------第一天(实现各类图像增广)

ModelScope模型即服务

热门文章

最新文章

阿里云通义千问向全社会开放！

通义万相Wan2.1视频模型开源！视频生成模型新标杆，支持中文字效+高质量视频生成

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

Trae 接入 Claude 3.7：AI 编程工具界的“卷王”，完全免费使用！

Qwen2.5-Max：阿里通义千问超大规模 MoE 模型，使用超过20万亿tokens的预训练数据

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

深度评测 | 仅用3分钟，百炼调用满血版 Deepseek-r1 API，百万Token免费用，简直不要太爽。

高效部署通义万相Wan2.1：使用Gradio搭建WebUI体验实战

DeepSeek开源周第五弹之一！3FS：支撑V3/R1模型数据访问的高性能分布式文件系统

Chat2SVG – 文本描述实现高质量矢量图形的生成框架

Kiss3DGen：基于图像扩散模型的3D资产生成框架

TheoremExplainAgent – AI教学双智能体，数理化定理自动转动画

PodAgent：港中文、微软、小红书联合推出的播客生成框架

SpatialVLA：上海AI Lab联合上科大推出的空间具身通用操作模型

Archon – 开源 AI 智能体框架，自主生成代码构建 AI 智能体

AVD2：清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

QwQ-32B开源！更小尺寸，仅1/20参数性能比肩满血R1

阿里通义开源推理模型新王者！QwQ-32B：性能直逼671B的DeepSeek-R1

有没有推荐的图生图大模型；自己本地部署，然后API实现传图生图

相关课程

更多

声纹识别技术

【科技少年】AI领航员探索教程（赛前训练）

南瓜书《机器学习公式推导》

AI情绪鼓励师模型微调实操教学

【深度有趣】上海交大博士带你玩转GAN生成对抗网络

人机对话技术浅析

相关电子书

更多

弱监督机器学习研究新进展

强化学习在电商环境下的若干应用与研究

对视觉智能未来发展的几点思考

相关实验场景

更多

基于百炼构建可以划重点、规划学习计划的学习助手

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

奥运时刻！零代码生成奥运风格AI写真。

下一篇

通义万相：视觉生成大模型再进化