ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:ImBD能够有效识别机器修订的文本,包括重写、扩展和润色等类型。
  2. 技术:基于风格偏好优化(SPO)和风格条件概率曲率(Style-CPC)技术,显著提升检测性能。
  3. 应用:适用于学术、新闻、出版、教育等多个领域,确保内容的原创性和真实性。

正文(附运行示例)

ImBD 是什么

公众号: 蚝油菜花 - ImBD

ImBD(Imitate Before Detect)是由复旦大学、华南理工大学、武汉大学、Fenzi AI等机构联合推出的一款用于检测机器修订文本的工具。它通过模仿大型语言模型(LLMs)生成文本的风格,基于风格偏好优化(SPO)调整评分模型,使其更符合机器修订文本的特征。

ImBD利用风格条件概率曲率(Style-CPC)量化原始文本与条件概率采样生成文本之间的对数概率差异,从而有效区分人类写作和机器修订内容。该工具在多种场景下表现出色,包括不同LLMs的文本修订、多个文本领域和多种修订类型,显著提高检测性能,且仅需少量数据和较短的训练时间即可达到优越性能。

ImBD 的主要功能

  • 检测机器修订文本:有效识别经过机器修订的文本,包括重写、扩展和润色等类型。捕捉文本中独特的机器风格特征,区分出人类写作和机器修订的内容,提高检测的准确性。
  • 适应多种场景:适用于多种文本领域和不同类型的机器修订任务。包括新闻、学术论文、故事创作等不同领域,ImBD能准确检测出机器修订的痕迹,具有良好的泛化能力。
  • 高效训练与推理:ImBD在训练过程中仅需少量样本和较短的训练时间,达到优越的性能。在推理阶段快速处理文本数据,给出检测结果,满足实际应用中对效率的要求。

ImBD 的技术原理

  • 风格偏好优化(SPO):基于SPO调整评分模型,使其更符合机器修订文本的风格特征。基于成对的人类写作文本和机器修订文本,用优化模型的token分布,让其更倾向于机器修订文本的风格,增强模型对机器风格特征的识别能力。
  • 风格条件概率曲率(Style-CPC):在检测阶段,利用Style-CPC量化原始文本和条件概率采样生成文本之间的对数概率差异。基于计算这种差异,模型能有效区分人类写作和机器修订内容,因为机器修订文本在概率分布上通常会表现出与人类写作不同的特征。
  • 模仿与检测结合:ImBD的核心思想是先模仿机器的风格,再进行检测。基于模仿机器的风格特征,模型能更好地理解机器修订文本的特点,在检测时更准确地识别出机器修订的痕迹,提高检测的准确性和鲁棒性。

如何运行 ImBD

1. 环境配置

首先,确保你已经安装了Python 3.10,并创建一个新的conda环境:

conda create -n ImBD python=3.10
conda activate ImBD
pip install -r requirements.txt

2. 下载模型

下载必要的模型文件到./models目录:

bash scripts/download_model.sh

3. 运行本地Demo

你可以通过以下脚本下载预训练的模型检查点,并运行本地Demo:

bash scripts/download_checkpoint.sh
bash scripts/run_inference.sh

4. 复现实验结果

如果你想复现实验结果,可以使用以下脚本进行训练和评估:

bash scripts/train_spo.sh
bash scripts/eval_spo_polish.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
14天前
|
人工智能 文字识别 API
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
45 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
5天前
|
机器学习/深度学习 人工智能 编解码
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
VideoVAE+ 是香港科技大学推出的先进跨模态视频变分自编码器,通过时空分离压缩机制和文本指导,实现了高效视频压缩与精准重建。
32 7
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
|
16天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
84 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
25天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
137 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
26天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
76 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
28天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
67 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
88 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
21天前
|
人工智能 自然语言处理 物联网
AI Safeguard联合 CMU,斯坦福提出端侧多模态小模型
随着人工智能的快速发展,多模态大模型(MLLMs)在计算机视觉、自然语言处理和多模态任务中扮演着重要角色。
|
9天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
143 97

热门文章

最新文章