1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的

简介: 1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的
那些篡改后的论文图片,或许骗得了人类的两只眼睛,但却骗不了 AI。

看一张论文图,两个红框内的图像,有何相似之处?


对于人类来说,两只眼睛实在很难迅速分辨,但 AI 就能在极短的时间内指出数百个相似特征:

蓝线为相似特征。

旋转、过滤、翻转、拉伸…… 像这样的篡改手段,AI 一眼就能看出来,哪怕是检查完整篇论文里所有图片,也只需要一两分钟。

再来 6 张不同的子图像,你能找出重复的地方吗?

AI 标出了 3 个重复(红框所示)。蓝线表示图像中相似特征的位置,线相交的地方表示图像发生了旋转。1 和 2 是旋转了 180 度,3 旋转了 90 度。

这个 AI,是有些火眼金睛在身上的。

走进「全自动时代」

为了避免发表的论文中带有被篡改过的图像,许多期刊都会聘请专门的人员来检查这些提交上来的手稿图片,当然这个过程也是在软件的协助之下。现在,这个过程似乎开始变得完全「自动化」了。

从 2021 年 1 月起,美国癌症协会(AACR)开始采用一款叫做「Proofig」的 AI 软件,检查那些经过同行评审后临时接收的文稿,这款软件能够自动提醒编辑哪些图像有哪些重复的部分。

《Nature》杂志发现,过去一年里,至少有四家出版商开始采用 AI 软件,在稿件发表之前发现图片中重复的部分,不管这种「重复」是出于抄袭的目的,或者只是不恰当的美化方法。

2016 年,一项分析了大约 20000 篇生物医学论文的研究表明,多达 4% 的论文可能都存在图像重复问题。实际上,这个问题比论文更正和撤回等问题更严重、更广泛,每年大概只有大约 1% 的论文得到更正,被撤回的论文就更少了。

此前,当软件被用来标记图像问题时,仍然需要一位专业编辑来决定如何处理。例如,如果数据集被特意展示了两次,文中也有解释,那么重复的图像就不算是问题;又比如,一些重复可能是手稿组装过程中简单的复制和粘贴错误,并不是欺诈,这种情况只能通过编辑和作者之间的沟通来解决。

专家表示,随着人工智能软件变得足够有效且成本低廉,一系列的图像自动检查工具可能会在未来几年席卷科学出版行业。

研究者一直在开发图像检查相关的 AI 技术。2020 年,出版商成立了一个工作组,专门为图像问题筛选的软件制定了标准,又在今年发布了编辑如何处理篡改图像的指导方针。开发此类软件的公司不只「Proofig」一家,但它是第一家公开了自己客户名字的公司,除了 AACR 之外,美国临床调查学会今年 7 月份也开始使用 Proofig,SAGE Publishing 在 10 月份的五份生命科学期刊中也采用了该软件。

Proofig 软件从论文中提取图像,并将它们成对地进行比较找出共同特征,包括部分重复。一般的论文在一两分钟内就能完成检查,还能顺便查出一些其他小问题,比如将高分辨率原始数据压缩成较小文件时可能出现的压缩伪影。

这一切工作,都能在几分钟之内完成,你要做的就是上传 PDF,确认图片都被选中了,等待一会儿,下载 PDF 报告即可。

图像检查的成本远高于抄袭检查每篇论文不到 1 美元的成本。Proofig 与出版商签订的合同中,费用是根据论文中的图像数量收取的,但这也取决于手稿的数量,相当于每篇论文的收费「大概几十美元,而不是几百美元」。

「计算机视觉比人类视觉更有优势,」公司创始人 Dror Kolodkin-Gal 表示。「计算机不仅不会感到疲倦,运行速度也会更快,而且它也不会受到大小、位置、方向、重叠、部分复制和这些因素组合的影响。」

软件发现的问题比此前编辑手动检查的问题要多,但是编辑对于 Proofig 输出结果的把控仍然必不可少。

与此同时,位于瑞士洛桑的出版商 Frontiers 也开发了自己的图像检查软件,成为 AIRA 自动检查系统的一部分。自 2020 年 8 月以来,这家出版商内部的研究诚信团队一直在使用 AIRA 对所有提交的手稿进行图像检查。在被选中标记的论文中,大多数没有问题,只有大约 10% 需要该团队再跟进。

除了重复问题之外,检测图像处理也很重要,例如删除或裁剪了图像的一部分,以及其他 PS 痕迹。Frontiers 的软件是人工视觉筛选的有用补充,但它可能无法完全替代当前形式。

仍有出版商保持谨慎

尚未采用 AI 图像检查工具的出版商提到了成本和可靠性问题,其中一些出版商正在开发自己的 AI,包括 PLOS 和爱思唯尔等大型出版商。

2020 年 4 月,Wiley 面向临时接收的手稿推出了图像筛查服务,目前已用于 120 多种期刊,但还是由软件辅助的手动筛查。Springer Nature 表示,它正在评估一些外部工具,同时也在整理数据以训练自己的软件,该软件将「人工智能和人类结合互补来识别有问题的图像」。

像 EMBO Press 这样的出版商仍然主要使用手动筛查方法,因为他们还不相信商业产品的成本效益比,除此之外,还有另外一层担心:欺诈者可能会了解该软件的工作原理,并使用 AI 制作人类和软件都无法检测到的虚假图像。

尽管还没有证据表明此类图像已经出现在研究论文中,但去年发布在 bioRxiv 上的一份预印本表明,制作与真实数据无法区分的生物图像伪造版本是有可能的,比如蛋白质印迹。

论文链接:https://www.biorxiv.org/content/10.1101/2020.11.24.395319v2

研究人员也在努力解决这个问题:计算机科学家 Edward Delp 在美国国防高级研究计划局资助的一个项目带领团队专注于伪造的生物图像,例如显微镜图像和 X 射线。他们拥有一组检测器,用于检测 GAN 生成的逼真图像。

参考链接:https://www.nature.com/articles/d41586-021-03807-6

相关文章
|
18天前
|
存储 人工智能 开发工具
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
只需要通过向AI助理提问的方式输入您的需求,即可瞬间获得核心流程代码及参数,缩短学习路径、提升开发效率。
1247 3
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
|
3月前
|
人工智能 编解码 内存技术
手把手教你生成一幅好看的AI图片
想要生成一幅好看的AI图片,但是却不知道如何下手?只会1girl的你现在是不是很烦恼?别急,看这篇文章就够了。
手把手教你生成一幅好看的AI图片
|
9天前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第7天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
29 1
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
|
17天前
|
存储 人工智能 缓存
AI助理直击要害,从繁复中提炼精华——使用CDN加速访问OSS存储的图片
本案例介绍如何利用AI助理快速实现OSS存储的图片接入CDN,以加速图片访问。通过AI助理提炼关键操作步骤,避免在复杂文档中寻找解决方案。主要步骤包括开通CDN、添加加速域名、配置CNAME等。实测显示,接入CDN后图片加载时间显著缩短,验证了加速效果。此方法大幅提高了操作效率,降低了学习成本。
2759 8
|
1月前
|
人工智能
在stable diffussion中完美修复AI图片
无论您的提示和模型有多好,一次性获得完美图像的情况很少见。修复小缺陷的不可或缺的方法是图像修复(inpainting)
在stable diffussion中完美修复AI图片
|
1月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
42 4
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
87 1
|
5月前
|
人工智能
AI大咖说-如何评价论文的创新性
《AI大咖说》探讨论文创新性,强调新意、有效性和领域研究问题的重要性。创新点在于用新颖方法有效解决研究问题。评价公式:价值=问题大小*有效性*新意度。该观点源于《跟李沐学AI》视频,提供1-100分评分标准,助力评估论文价值。5月更文挑战第14天
77 3
|
5月前
|
机器学习/深度学习 人工智能
论文介绍:AI击败最先进全球洪水预警系统,提前7天预测河流洪水
【5月更文挑战第4天】研究人员开发的AI模型(基于LSTM网络)成功击败全球最先进的洪水预警系统,能在未设测站流域提前7天预测洪水,显著提升预警时间,降低灾害影响。该模型使用公开数据集,减少了对长期观测数据的依赖,降低了预警系统的成本,有望帮助资源有限的地区。然而,模型的性能可能受特定流域条件影响,泛化能力和预测解释性仍有待改进。[论文链接](https://www.nature.com/articles/s41586-024-07145-1)
140 11
|
5月前
|
机器学习/深度学习 人工智能 算法
AI大咖说-如何有效的读论文
# AI大咖李沐教你高效读论文 李沐,亚马逊资深首席科学家,MXNet框架作者,推荐其在B站的“跟李沐学AI”。他建议读论文分三步:粗读(标题、摘要、结论)、快速浏览(整体理解)和精读(深入细节)。通过这三遍阅读,判断论文是否相关,理解解决问题的方法和实验。5月更文挑战第13天
79 0