AI论文激增,出现引用10万+的ResNet是好是坏?这研究有结论了

简介: AI论文激增,出现引用10万+的ResNet是好是坏?这研究有结论了
一个 领域的规模越来越大,每年发表的论文越多越多时,对于该领域来说,是好事还是坏事呢?

一周前,计算机视觉领域经典之作、何恺明的 ResNet 论文的被引次数突破了 10 万 +,而这距离他提交这篇论文仅过去六年。这一工作的热度如此之高,既显示出了 ResNet 本身的久经考验,也印证了 AI 领域,特别是计算机视觉如今的火热程度。

然而,ResNet 高被引的背后也让我们看到了一个问题,那就是计算机视觉领域每年产出那么多的新论文,为何研究者往往还是选择它作为引文呢?对高被引经典论文的趋向性究竟会给领域带来进步还是停滞呢?新发表的论文是否还有可能成为下一个经典之作呢?

在近日发表在  SCI 期刊 PNAS 上的一篇论文《Slowed Canonical Progress in Large Fields of  Science》中,来自美国西北大学和芝加哥大学的两位研究者对上述问题进行了解答,并深入探讨了科学领域发表论文的数量、质量以及被引情况之间的错综复杂的关联。

image.png

论文地址:https://www.pnas.org/content/pnas/118/41/e2021636118.full.pdf

对科学进步有种很直接的观点,那就是多多益善。一个领域发表的论文越多,科学进步的速度就越快;研究者数量越多,覆盖的面就越广。即使并非每篇论文都产生重大的影响,但它们都成为了聚成沙堆的沙粒,增加了出现质变的可能性。在这一过程中,科学景观得到了重新配置,结构性探究中出现了新的范式。

更多论文的发表也增加了「它们之中至少有一篇包含重要创新」的可能性。一个颠覆性的全新想法可以动摇现状,将人们的注意力从以往工作中吸引过来,并获得大量的新引用。

领域内流行的政策很好地反映了这种多多益善的观点。人们会根据学者的生产力对他们进行评估和奖励,一段时间内发表更多的论文是他们获得终身教职和职位晋升的最可靠途径。数量仍是大学和公司展开比较的标杆,其中发表作品、专利、科学家和经费的总量仍是重中之重。

质量也主要通过数量进行判断。被引次数用来衡量一个领域内个人、团队和学术期刊的重要性。在论文层面,人们往往假定最好和最优价值的论文会吸引更多的关注,从而塑造了该领域的研究轨迹。

在文中,他们预测,当每年发表论文的数量非常大时,新论文的快速流动会迫使学界关注那些被广泛引用的论文,由此减少了对不太成熟的论文的关注,即使它们当中有些提出了新颖、有用和具有潜在变革性的想法。大量新发表论文的出现并没有引起领域范式的更快更迭,反而巩固了那些高引用量的论文,阻止新工作成为被引用最多且广为人知的领域经典之作。

研究者通过实验分析验证了这些观点,表明了科研单位对数量的关注可能阻碍基础性进步。随着每个领域每年所发表作品的持续增长,这种不利影响将加剧。并且,考虑到推动「发表数量至上」领域认知的根深蒂固、错综复杂的结构,这种情况将不可避免。重构科学生产力价值链的政策措施需要进行调整,以使大众重新聚焦于那些有潜力的新想法。

这篇文章主要讲了啥?

本文重点研究了领域大小,即给定的一年内某个领域发表论文数量的多少产生的影响。以往的研究发现,很多学科的引用不平等现象正在加剧,至少部分受到了偏好的影响。然而,一篇论文往往无法在过去几年保持它们的引用水平和排名。颠覆性论文能够取代以往的工作,被引次数的自然波动也会影响论文排名。

因而,研究者预测,当领域足够大时,变革动力会出现变化。引用最多的论文将根深蒂固,在未来获得不成比例的引用量。新论文无法通过偏好依附积累引用数,也就不可能成为经典。新发表的论文很少能够对已成型的学术桎梏产生影响。

他们给出了支撑以上预测的两个机制。一方面,当一个领域短时间内发表了很多论文时,学者不得不诉诸于启发式方法来对该领域进行持续性的理解。认知超载的评审人和读者在读新论文时不考虑里面的新想法,只会将它们与现有的范例论文联系起来。不符合现有模式的新想法有极大可能不会被发表、阅读或引用。

面对这种变革动力,论文作者不得不牢牢地将他们的工作与知名论文联系起来。这些知名论文充当起了「知识徽章」,界定了如何理解新工作,不鼓励他们研究太过新颖且不易于与现有经典之作联系起来的想法。这样一来,突破性新想法的产生以及被发表和广泛阅读的概率下降,并且每一篇新论文的发表也将不成比例地增加高被引论文的引用量。

另一方面,如果新想法的到来速度太快,它们之间的竞争可能会阻碍任何新想法在领域内广为人知和广泛接受。至于为什么会这样呢?研究者以某个领域中传播想法的沙堆模型为例进行解读。

当沙子慢慢落在沙堆上时,一次一粒,等到沙堆运动停止时再落下一粒。随着时间推移,沙堆达到了无标度临界状态,其中一粒沙子都能够引起整个沙堆区域的崩塌。但当沙子以极快的速度落下时,相邻的小型崩塌会相互干扰,导致任何一粒沙子都无法触发沙堆范围内的位移。这意味着,沙子掉落的速度越快,每个新沙粒能够影响的区域就越小。论文也一样,如果论文出现的速度太快,则任何一篇新论文都无法通过局部扩散和偏好依附成为经典。

这两方面的论点衍生出了六个预测,其中两个分别是最高引的论文将长期处于主导地位以及新发表论文的徒劳无功和它们自身颠覆性的降低。

总之,相较于一个领域每年发表的论文很少,当该领域每年产出的论文很多时,则将面临以下六种情况:

  • 新论文将更有可能引用最高引的论文而不是低引用的论文;
  • 每年最高引的论文列表几乎不会出现变化,导致经典论文始终是那些;
  • 一篇新论文成为经典之作的概率将下降;
  • 进入高引用论文列表的新论文不会通过循序累积的传播方式实现;
  • 新发表论文中发展现有科研想法的比例增加,而颠覆现有想法的比例下降;
  • 一篇新论文成为颠覆性工作的概率降低。

用到了哪些数据与方法?

研究者使用 Web of Science 数据集,分析了1960 至 2014 年间发表的论文,共计  90,637,277 篇论文和 1,821,810,360 个引用。Web of Science  将学术领域,或者某些情况下大的子领域,划分为不同的学科。因此,研究者的分类中共有 241  个学科,并将它们作为领域级分析的基础。其中,一篇焦点论文每年从同一主题新发表论文中收到的被引次数构成了研究者主要的兴趣变量。

为了计算  10 个最大的非综合学科(non-multidisciplinary)学科的 1-decay  rate(λ),对于每个学科,研究者以发表论文数量的 10 log 划分年份,截点分别为 1, 1.5, 2, 2.5, 3, 3.5, 4,  4.5, 5 和 5.5,并以 field-year 中被引最多的百分位划分论文年份,截点分别为 1, 2, 3, …,  100。对于每个(发表论文的记录数量)×(引用数百分位),他们将第二年一篇论文的被引次数回归到焦点年份论文的被引次数。这一回归的系数产生  1-λ。

此外,为了计算所有学科的  1-λ(图下图 2D 所示),研究者选取了第 1、2、5、10 和 25 个百分位数中被引最多的前 100 篇论文。他们通过发表论文数量的  base 10 log(截点分别为 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5 和 5.5)对  subject-years 进行分类。对于每个 bin×  选取的百分位,研究者将第二年一篇论文的被引次数回归到焦点年份论文的被引次数。这一回归的系数产生 1–λ。

这些预测得到证实了吗?

研究者的所有预测都在  Web of Science 数据集的引用模式中得到了证实,具体如下图 1 至 4  所示。随着领域变得越来越多,被引次数最多的论文始终成为主导,在引用分布上占据绝对优势。相比之下,新论文成为高引的可能性降低,并且无法随时间推移而逐渐累积关注度。发表论文往往在发展现有想法,而不具备颠覆性,也很少能够产生具有开拓性的新的研究潮流。

具体而言,被引次数最多的论文在更大的领域获得了不成比例的更高的引用份额。最大领域引用份额的基尼系数约为 0.5,如下图 1A 所示。高引论文不成比例的被引次数又导致不平等关注的加剧。

例如,当电气与电子工程领域每年发表  10,000 篇论文左右时,前 0.1% 和前 1% 高被引论文占了总被引次数的 1.5% 和 8.6%。当该领域每年发表 50,000  篇论文时,前 0.1% 和前 1% 高被引论文占了总被引次数的 3.5% 和 11.9%。当该领域规模更大,每年发表 100,000  篇论文时,前 0.1% 和前 1% 高被引论文占了总被引次数的 5.7% 和 16.7%。

相比之下,排名最后 50% 的被引最少论文在总被引次数中所占份额下降,每年发表 10,000 篇论文时的占比为 43.7%,每年发表论文达到 50,000 和 100,000 时,这一比例仅略高于 20%。

当跨越时间查看领域数据时,我们会发现存在这样的模式:当每年发表的论文数量较多时,被引用最多的  top-50 论文之间的排名相关性增加(图. 1B)。在随后几年斯皮尔曼排名相关性中,在一个领域中被引用最多的 top-50 列表从发表  1,000 篇论文时的 0.25 增加到 100,000 篇论文时的 0.74。

image.png

当领域范围很广时,被引用最多的论文的被引次数保持逐年增长,而所有其他论文的被引次数都会下降。下图  2 为论文当年与上一年被被引次数的预测比率。在论文发表很少的年份,被被引次数最多的论文的比率明显低于  1,与被被引次数较少的论文的比率没有太大区别。然而,在发表论文数量较多的年份,被被引次数最多的论文的比率接近 1,明显高于被被引次数少的论文。

在非常大的领域年中,发表了大约  100,000 篇论文,平均而言,被引用最多的论文的被引次数没有逐年下降。相比之下,排名在 top 1% 之外的论文,平均每年损失约 17%  的被引次数,而处于 top 5% 及以下的论文则趋向于每年损失 25% 的被引次数。

image.png

当同一领域同时发表许多论文时,单篇论文的引用量达到 top 0.1% 的可能性会减少,这种现象在同一年的不同领域或不同年的同一领域都适用,如图 3A 所示。一般来说,较大领域论文被引用最多,很少是通过局部扩散等过程完成。

图  3B  显示了一篇文章进入相关领域的平均时间(以年为单位),条件是该论文成为该领域中被引次数最多的论文之一。当一个领域很小时,论文会随着时间的推移缓慢上升到被被引次数最多的  top 0.1%。我们以 1980 年在小领域(回归预测)发表的论文为例,假如同一领域发表了 1000  篇论文,想要成为被引用最多的论文,平均需要 9  年时间。相比之下,在最大领域经典论文会迅速登上引用榜首,这与学者通过阅读他人著作中引用的参考资料发现新著作的累积过程不一致。同样的回归预测,在每年发表  100,000 篇论文的大领域中,论文达到引用量 top 0.1% 的时间平均不到一年。

image.png

同一年发表的大多数论文都建立在现有文献的基础上,而不是中断(disrupt)现有文献(图  4A)。逻辑拟合预测显示,当该领域一年发表 1,000 篇论文时,49% 的论文具有中断度量(disruption measure) D  > 0(相反,51% D < 0)。当发表 10,000 篇论文时,中断度量比例下降到 27%,发表 100,000 篇论文时下降到  13%。即使当 D > 0 时,新发表论文的中断度量在更大的领域中也会减弱。图 4B  显示了按领域年排列的新论文比例,这些论文在中断度量的 top-5 百分位中排名。Lowess 估计显示,具有 top-5  百分位中断度量的新论文比例从该领域年发表的 1,000 篇论文时的 8.8% 减少到每年 10,000 篇论文时的 3.6% 和 100,000  篇论文时的 0.6%。

image.png

相关文章
|
15天前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
20 1
|
21天前
|
人工智能 自然语言处理
召唤100多位学者打分,斯坦福新研究:AI科学家创新确实强
【10月更文挑战第6天】斯坦福大学最新研究评估了大型语言模型(LLMs)在生成新颖研究想法方面的能力,通过100多位NLP专家盲评LLMs与人类研究人员提出的想法。结果显示,LLMs在新颖性方面超越人类(p &lt; 0.05),但在可行性上略逊一筹。研究揭示了LLMs作为科研工具的潜力与挑战,并提出了进一步验证其实际效果的设计。论文详见:https://arxiv.org/abs/2409.04109。
35 6
|
30天前
|
人工智能 自然语言处理 机器人
MIT新研究揭秘AI洗脑术!AI聊天诱导人类编造记忆,真假难辨
麻省理工学院的一项新研究《基于大型语言模型的对话式AI在证人访谈中加剧虚假记忆》显示,使用生成式聊天机器人进行犯罪证人访谈会显著增加参与者的虚假记忆,且影响持久。研究设置了对照组、问卷访谈、预设脚本及生成式聊天机器人四种条件,结果显示生成式聊天机器人诱导的虚假记忆数量远超其他方法。尽管AI技术在效率和准确性方面潜力巨大,但在敏感领域需谨慎应用,并需进一步评估风险,制定伦理准则和监管措施。论文详细内容见[这里](https://arxiv.org/abs/2408.04681)。
37 2
|
2月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
45 4
|
2月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。
|
2月前
|
存储 人工智能 JavaScript
根据Accenture的研究,CEO和CFO谈论AI和GenAI是有原因的
数字化转型与当前GenAI领导者之间的关键区别在于,CEO和CFO(而非CIO)似乎参与了指导AI投资的过程。例如,Accenture在2024年1月报告称,到2023年底,在财报电话会议中提到AI的次数几乎达到4万次,因为C级领导层正在为“重大技术变革”做好准备
38 0
|
3月前
|
边缘计算 人工智能 监控
边缘计算与AI结合的场景案例研究
【8月更文第17天】随着物联网(IoT)设备数量的爆炸性增长,对实时数据处理的需求也随之增加。传统的云计算模型在处理这些数据时可能会遇到延迟问题,尤其是在需要即时响应的应用中。边缘计算作为一种新兴的技术趋势,旨在通过将计算资源更靠近数据源来解决这个问题。本文将探讨如何将人工智能(AI)技术与边缘计算结合,以实现高效的实时数据分析和决策制定。
195 1
|
4月前
|
数据采集 机器学习/深度学习 人工智能
AI小分子药物发现的百科全书,康奈尔、剑桥、EPFL等研究者综述登Nature子刊
【7月更文挑战第12天】康奈尔、剑桥及EPFL科学家合作,详述AI在药物发现中的突破与挑战[^1]。AI现用于新化合物生成、现有药物优化及再利用,加速研发进程。尽管取得进展,可解释性不足、数据质量和伦理监管仍是待解难题。 [^1]: [论文链接](https://www.nature.com/articles/s42256-024-00843-5)
62 3
|
5月前
|
存储 人工智能 Kubernetes
[AI OpenAI] 保护前沿AI研究基础设施的安全
概述支持OpenAI前沿AI模型安全训练的架构。
[AI OpenAI] 保护前沿AI研究基础设施的安全
|
5月前
|
人工智能 安全 网络安全
简述AI漏洞修复研究现状及发展方向
鲁军磊先生的演讲聚焦AI在网络安全中的应用,特别是自动化漏洞修复。他讨论了大模型技术的最新进展,AI如何增强漏洞发现与修复,并介绍了AI智能体的三种协作模式。传统漏洞修复流程从手工审计到智能化挖掘逐步演进,而AI技术通过智能决策和自动化执行提高效率。未来趋势包括智能化防御、跨域协同、安全合规自动化、隐私保护强化和安全技能普及,以及可持续安全生态建设。AI正重塑网络安全领域,推动更高效、精准的防御策略。