❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:ImBD能够有效识别机器修订的文本,包括重写、扩展和润色等类型。
- 技术:基于风格偏好优化(SPO)和风格条件概率曲率(Style-CPC)技术,显著提升检测性能。
- 应用:适用于学术、新闻、出版、教育等多个领域,确保内容的原创性和真实性。
正文(附运行示例)
ImBD 是什么
ImBD(Imitate Before Detect)是由复旦大学、华南理工大学、武汉大学、Fenzi AI等机构联合推出的一款用于检测机器修订文本的工具。它通过模仿大型语言模型(LLMs)生成文本的风格,基于风格偏好优化(SPO)调整评分模型,使其更符合机器修订文本的特征。
ImBD利用风格条件概率曲率(Style-CPC)量化原始文本与条件概率采样生成文本之间的对数概率差异,从而有效区分人类写作和机器修订内容。该工具在多种场景下表现出色,包括不同LLMs的文本修订、多个文本领域和多种修订类型,显著提高检测性能,且仅需少量数据和较短的训练时间即可达到优越性能。
ImBD 的主要功能
- 检测机器修订文本:有效识别经过机器修订的文本,包括重写、扩展和润色等类型。捕捉文本中独特的机器风格特征,区分出人类写作和机器修订的内容,提高检测的准确性。
- 适应多种场景:适用于多种文本领域和不同类型的机器修订任务。包括新闻、学术论文、故事创作等不同领域,ImBD能准确检测出机器修订的痕迹,具有良好的泛化能力。
- 高效训练与推理:ImBD在训练过程中仅需少量样本和较短的训练时间,达到优越的性能。在推理阶段快速处理文本数据,给出检测结果,满足实际应用中对效率的要求。
ImBD 的技术原理
- 风格偏好优化(SPO):基于SPO调整评分模型,使其更符合机器修订文本的风格特征。基于成对的人类写作文本和机器修订文本,用优化模型的token分布,让其更倾向于机器修订文本的风格,增强模型对机器风格特征的识别能力。
- 风格条件概率曲率(Style-CPC):在检测阶段,利用Style-CPC量化原始文本和条件概率采样生成文本之间的对数概率差异。基于计算这种差异,模型能有效区分人类写作和机器修订内容,因为机器修订文本在概率分布上通常会表现出与人类写作不同的特征。
- 模仿与检测结合:ImBD的核心思想是先模仿机器的风格,再进行检测。基于模仿机器的风格特征,模型能更好地理解机器修订文本的特点,在检测时更准确地识别出机器修订的痕迹,提高检测的准确性和鲁棒性。
如何运行 ImBD
1. 环境配置
首先,确保你已经安装了Python 3.10,并创建一个新的conda环境:
conda create -n ImBD python=3.10
conda activate ImBD
pip install -r requirements.txt
2. 下载模型
下载必要的模型文件到./models
目录:
bash scripts/download_model.sh
3. 运行本地Demo
你可以通过以下脚本下载预训练的模型检查点,并运行本地Demo:
bash scripts/download_checkpoint.sh
bash scripts/run_inference.sh
4. 复现实验结果
如果你想复现实验结果,可以使用以下脚本进行训练和评估:
bash scripts/train_spo.sh
bash scripts/eval_spo_polish.sh
资源
- 项目官网:https://machine-text-detection.github.io/ImBD/
- GitHub 仓库:https://github.com/Jiaqi-Chen-00/ImBD
- arXiv 技术论文:https://arxiv.org/pdf/2412.10432
- 在线体验Demo:https://ai-detector.fenz.ai/ai-detector
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦