AI论文激增,出现引用10万+的ResNet是好是坏?这研究有结论了

简介: AI论文激增,出现引用10万+的ResNet是好是坏?这研究有结论了
一个 领域的规模越来越大,每年发表的论文越多越多时,对于该领域来说,是好事还是坏事呢?

一周前,计算机视觉领域经典之作、何恺明的 ResNet 论文的被引次数突破了 10 万 +,而这距离他提交这篇论文仅过去六年。这一工作的热度如此之高,既显示出了 ResNet 本身的久经考验,也印证了 AI 领域,特别是计算机视觉如今的火热程度。

然而,ResNet 高被引的背后也让我们看到了一个问题,那就是计算机视觉领域每年产出那么多的新论文,为何研究者往往还是选择它作为引文呢?对高被引经典论文的趋向性究竟会给领域带来进步还是停滞呢?新发表的论文是否还有可能成为下一个经典之作呢?

在近日发表在  SCI 期刊 PNAS 上的一篇论文《Slowed Canonical Progress in Large Fields of  Science》中,来自美国西北大学和芝加哥大学的两位研究者对上述问题进行了解答,并深入探讨了科学领域发表论文的数量、质量以及被引情况之间的错综复杂的关联。

image.png

论文地址:https://www.pnas.org/content/pnas/118/41/e2021636118.full.pdf

对科学进步有种很直接的观点,那就是多多益善。一个领域发表的论文越多,科学进步的速度就越快;研究者数量越多,覆盖的面就越广。即使并非每篇论文都产生重大的影响,但它们都成为了聚成沙堆的沙粒,增加了出现质变的可能性。在这一过程中,科学景观得到了重新配置,结构性探究中出现了新的范式。

更多论文的发表也增加了「它们之中至少有一篇包含重要创新」的可能性。一个颠覆性的全新想法可以动摇现状,将人们的注意力从以往工作中吸引过来,并获得大量的新引用。

领域内流行的政策很好地反映了这种多多益善的观点。人们会根据学者的生产力对他们进行评估和奖励,一段时间内发表更多的论文是他们获得终身教职和职位晋升的最可靠途径。数量仍是大学和公司展开比较的标杆,其中发表作品、专利、科学家和经费的总量仍是重中之重。

质量也主要通过数量进行判断。被引次数用来衡量一个领域内个人、团队和学术期刊的重要性。在论文层面,人们往往假定最好和最优价值的论文会吸引更多的关注,从而塑造了该领域的研究轨迹。

在文中,他们预测,当每年发表论文的数量非常大时,新论文的快速流动会迫使学界关注那些被广泛引用的论文,由此减少了对不太成熟的论文的关注,即使它们当中有些提出了新颖、有用和具有潜在变革性的想法。大量新发表论文的出现并没有引起领域范式的更快更迭,反而巩固了那些高引用量的论文,阻止新工作成为被引用最多且广为人知的领域经典之作。

研究者通过实验分析验证了这些观点,表明了科研单位对数量的关注可能阻碍基础性进步。随着每个领域每年所发表作品的持续增长,这种不利影响将加剧。并且,考虑到推动「发表数量至上」领域认知的根深蒂固、错综复杂的结构,这种情况将不可避免。重构科学生产力价值链的政策措施需要进行调整,以使大众重新聚焦于那些有潜力的新想法。

这篇文章主要讲了啥?

本文重点研究了领域大小,即给定的一年内某个领域发表论文数量的多少产生的影响。以往的研究发现,很多学科的引用不平等现象正在加剧,至少部分受到了偏好的影响。然而,一篇论文往往无法在过去几年保持它们的引用水平和排名。颠覆性论文能够取代以往的工作,被引次数的自然波动也会影响论文排名。

因而,研究者预测,当领域足够大时,变革动力会出现变化。引用最多的论文将根深蒂固,在未来获得不成比例的引用量。新论文无法通过偏好依附积累引用数,也就不可能成为经典。新发表的论文很少能够对已成型的学术桎梏产生影响。

他们给出了支撑以上预测的两个机制。一方面,当一个领域短时间内发表了很多论文时,学者不得不诉诸于启发式方法来对该领域进行持续性的理解。认知超载的评审人和读者在读新论文时不考虑里面的新想法,只会将它们与现有的范例论文联系起来。不符合现有模式的新想法有极大可能不会被发表、阅读或引用。

面对这种变革动力,论文作者不得不牢牢地将他们的工作与知名论文联系起来。这些知名论文充当起了「知识徽章」,界定了如何理解新工作,不鼓励他们研究太过新颖且不易于与现有经典之作联系起来的想法。这样一来,突破性新想法的产生以及被发表和广泛阅读的概率下降,并且每一篇新论文的发表也将不成比例地增加高被引论文的引用量。

另一方面,如果新想法的到来速度太快,它们之间的竞争可能会阻碍任何新想法在领域内广为人知和广泛接受。至于为什么会这样呢?研究者以某个领域中传播想法的沙堆模型为例进行解读。

当沙子慢慢落在沙堆上时,一次一粒,等到沙堆运动停止时再落下一粒。随着时间推移,沙堆达到了无标度临界状态,其中一粒沙子都能够引起整个沙堆区域的崩塌。但当沙子以极快的速度落下时,相邻的小型崩塌会相互干扰,导致任何一粒沙子都无法触发沙堆范围内的位移。这意味着,沙子掉落的速度越快,每个新沙粒能够影响的区域就越小。论文也一样,如果论文出现的速度太快,则任何一篇新论文都无法通过局部扩散和偏好依附成为经典。

这两方面的论点衍生出了六个预测,其中两个分别是最高引的论文将长期处于主导地位以及新发表论文的徒劳无功和它们自身颠覆性的降低。

总之,相较于一个领域每年发表的论文很少,当该领域每年产出的论文很多时,则将面临以下六种情况:

  • 新论文将更有可能引用最高引的论文而不是低引用的论文;
  • 每年最高引的论文列表几乎不会出现变化,导致经典论文始终是那些;
  • 一篇新论文成为经典之作的概率将下降;
  • 进入高引用论文列表的新论文不会通过循序累积的传播方式实现;
  • 新发表论文中发展现有科研想法的比例增加,而颠覆现有想法的比例下降;
  • 一篇新论文成为颠覆性工作的概率降低。

用到了哪些数据与方法?

研究者使用 Web of Science 数据集,分析了1960 至 2014 年间发表的论文,共计  90,637,277 篇论文和 1,821,810,360 个引用。Web of Science  将学术领域,或者某些情况下大的子领域,划分为不同的学科。因此,研究者的分类中共有 241  个学科,并将它们作为领域级分析的基础。其中,一篇焦点论文每年从同一主题新发表论文中收到的被引次数构成了研究者主要的兴趣变量。

为了计算  10 个最大的非综合学科(non-multidisciplinary)学科的 1-decay  rate(λ),对于每个学科,研究者以发表论文数量的 10 log 划分年份,截点分别为 1, 1.5, 2, 2.5, 3, 3.5, 4,  4.5, 5 和 5.5,并以 field-year 中被引最多的百分位划分论文年份,截点分别为 1, 2, 3, …,  100。对于每个(发表论文的记录数量)×(引用数百分位),他们将第二年一篇论文的被引次数回归到焦点年份论文的被引次数。这一回归的系数产生  1-λ。

此外,为了计算所有学科的  1-λ(图下图 2D 所示),研究者选取了第 1、2、5、10 和 25 个百分位数中被引最多的前 100 篇论文。他们通过发表论文数量的  base 10 log(截点分别为 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5 和 5.5)对  subject-years 进行分类。对于每个 bin×  选取的百分位,研究者将第二年一篇论文的被引次数回归到焦点年份论文的被引次数。这一回归的系数产生 1–λ。

这些预测得到证实了吗?

研究者的所有预测都在  Web of Science 数据集的引用模式中得到了证实,具体如下图 1 至 4  所示。随着领域变得越来越多,被引次数最多的论文始终成为主导,在引用分布上占据绝对优势。相比之下,新论文成为高引的可能性降低,并且无法随时间推移而逐渐累积关注度。发表论文往往在发展现有想法,而不具备颠覆性,也很少能够产生具有开拓性的新的研究潮流。

具体而言,被引次数最多的论文在更大的领域获得了不成比例的更高的引用份额。最大领域引用份额的基尼系数约为 0.5,如下图 1A 所示。高引论文不成比例的被引次数又导致不平等关注的加剧。

例如,当电气与电子工程领域每年发表  10,000 篇论文左右时,前 0.1% 和前 1% 高被引论文占了总被引次数的 1.5% 和 8.6%。当该领域每年发表 50,000  篇论文时,前 0.1% 和前 1% 高被引论文占了总被引次数的 3.5% 和 11.9%。当该领域规模更大,每年发表 100,000  篇论文时,前 0.1% 和前 1% 高被引论文占了总被引次数的 5.7% 和 16.7%。

相比之下,排名最后 50% 的被引最少论文在总被引次数中所占份额下降,每年发表 10,000 篇论文时的占比为 43.7%,每年发表论文达到 50,000 和 100,000 时,这一比例仅略高于 20%。

当跨越时间查看领域数据时,我们会发现存在这样的模式:当每年发表的论文数量较多时,被引用最多的  top-50 论文之间的排名相关性增加(图. 1B)。在随后几年斯皮尔曼排名相关性中,在一个领域中被引用最多的 top-50 列表从发表  1,000 篇论文时的 0.25 增加到 100,000 篇论文时的 0.74。

image.png

当领域范围很广时,被引用最多的论文的被引次数保持逐年增长,而所有其他论文的被引次数都会下降。下图  2 为论文当年与上一年被被引次数的预测比率。在论文发表很少的年份,被被引次数最多的论文的比率明显低于  1,与被被引次数较少的论文的比率没有太大区别。然而,在发表论文数量较多的年份,被被引次数最多的论文的比率接近 1,明显高于被被引次数少的论文。

在非常大的领域年中,发表了大约  100,000 篇论文,平均而言,被引用最多的论文的被引次数没有逐年下降。相比之下,排名在 top 1% 之外的论文,平均每年损失约 17%  的被引次数,而处于 top 5% 及以下的论文则趋向于每年损失 25% 的被引次数。

image.png

当同一领域同时发表许多论文时,单篇论文的引用量达到 top 0.1% 的可能性会减少,这种现象在同一年的不同领域或不同年的同一领域都适用,如图 3A 所示。一般来说,较大领域论文被引用最多,很少是通过局部扩散等过程完成。

图  3B  显示了一篇文章进入相关领域的平均时间(以年为单位),条件是该论文成为该领域中被引次数最多的论文之一。当一个领域很小时,论文会随着时间的推移缓慢上升到被被引次数最多的  top 0.1%。我们以 1980 年在小领域(回归预测)发表的论文为例,假如同一领域发表了 1000  篇论文,想要成为被引用最多的论文,平均需要 9  年时间。相比之下,在最大领域经典论文会迅速登上引用榜首,这与学者通过阅读他人著作中引用的参考资料发现新著作的累积过程不一致。同样的回归预测,在每年发表  100,000 篇论文的大领域中,论文达到引用量 top 0.1% 的时间平均不到一年。

image.png

同一年发表的大多数论文都建立在现有文献的基础上,而不是中断(disrupt)现有文献(图  4A)。逻辑拟合预测显示,当该领域一年发表 1,000 篇论文时,49% 的论文具有中断度量(disruption measure) D  > 0(相反,51% D < 0)。当发表 10,000 篇论文时,中断度量比例下降到 27%,发表 100,000 篇论文时下降到  13%。即使当 D > 0 时,新发表论文的中断度量在更大的领域中也会减弱。图 4B  显示了按领域年排列的新论文比例,这些论文在中断度量的 top-5 百分位中排名。Lowess 估计显示,具有 top-5  百分位中断度量的新论文比例从该领域年发表的 1,000 篇论文时的 8.8% 减少到每年 10,000 篇论文时的 3.6% 和 100,000  篇论文时的 0.6%。

image.png

相关文章
|
2月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
38 1
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
45 25
|
24天前
|
人工智能 开发者
人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
论文《AI对齐中的超越偏好》挑战了偏好主义AI对齐方法,指出偏好无法全面代表人类价值观,存在冲突和变化,并受社会影响。文章提出基于角色的对齐方案,强调AI应与其社会角色相关的规范标准一致,而非仅关注个人偏好,旨在实现更稳定、适用性更广且更符合社会利益的AI对齐。论文链接:https://arxiv.org/pdf/2408.16984
33 2
|
1月前
|
人工智能 知识图谱
成熟的AI要学会自己搞研究!MIT推出科研特工
MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
43 12
|
1月前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
2月前
|
人工智能 自然语言处理
召唤100多位学者打分,斯坦福新研究:AI科学家创新确实强
【10月更文挑战第6天】斯坦福大学最新研究评估了大型语言模型(LLMs)在生成新颖研究想法方面的能力,通过100多位NLP专家盲评LLMs与人类研究人员提出的想法。结果显示,LLMs在新颖性方面超越人类(p &lt; 0.05),但在可行性上略逊一筹。研究揭示了LLMs作为科研工具的潜力与挑战,并提出了进一步验证其实际效果的设计。论文详见:https://arxiv.org/abs/2409.04109。
47 6
|
2月前
|
人工智能 自然语言处理 机器人
MIT新研究揭秘AI洗脑术!AI聊天诱导人类编造记忆,真假难辨
麻省理工学院的一项新研究《基于大型语言模型的对话式AI在证人访谈中加剧虚假记忆》显示,使用生成式聊天机器人进行犯罪证人访谈会显著增加参与者的虚假记忆,且影响持久。研究设置了对照组、问卷访谈、预设脚本及生成式聊天机器人四种条件,结果显示生成式聊天机器人诱导的虚假记忆数量远超其他方法。尽管AI技术在效率和准确性方面潜力巨大,但在敏感领域需谨慎应用,并需进一步评估风险,制定伦理准则和监管措施。论文详细内容见[这里](https://arxiv.org/abs/2408.04681)。
56 2
|
3月前
|
存储 人工智能 JavaScript
根据Accenture的研究,CEO和CFO谈论AI和GenAI是有原因的
数字化转型与当前GenAI领导者之间的关键区别在于,CEO和CFO(而非CIO)似乎参与了指导AI投资的过程。例如,Accenture在2024年1月报告称,到2023年底,在财报电话会议中提到AI的次数几乎达到4万次,因为C级领导层正在为“重大技术变革”做好准备
46 1
|
3月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
64 4
|
3月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。

热门文章

最新文章

下一篇
DataWorks