顶会审稿人紧缺,我审我自己!ICML 2023排序实验结果出炉:作者自评能提升评审质量吗?

简介: 【10月更文挑战第8天】ICML 2023通过一项创新实验,要求作者对提交的多篇论文进行自评排名,以评估其相对质量。实验结果显示,作者自评能提高评审的准确性和效率,但需谨慎处理潜在的主观性和操纵问题。

近年来,机器学习领域的国际顶级会议(如ICML)面临着审稿人紧缺的问题,这给会议的评审质量带来了一定的挑战。为了探索解决这一问题的方法,2023年国际机器学习大会(ICML)进行了一项创新的实验。

该实验要求提交多篇论文的作者对自己的论文进行排名,以评估其相对质量。这一举措旨在了解作者对自己工作的认知是否可以作为评审过程的补充,从而提高评审的准确性和效率。

实验结果显示,共有1342位作者参与了排名,涉及2592篇论文。研究人员对这些排名数据进行了深入分析,并提出了一种名为"Isotonic机制"的方法,用于校准原始评审分数,使其与作者提供的排名相一致。

分析结果表明,经过排名校准后的分数在估计真实"预期评审分数"时,无论是在平方误差还是绝对误差方面,都表现得比原始分数更好。这表明作者提供的排名信息确实可以为评审过程提供有价值的参考。

然而,尽管这一实验取得了积极的成果,但也有一些潜在的问题需要考虑。首先,作者的自我评估可能存在一定的主观性,他们可能会高估自己论文的质量。其次,如果作者知道他们的排名将被用于评审过程,他们可能会故意操纵排名以影响结果。

为了解决这些问题,研究人员提出了一些谨慎的、低风险的方法,将Isotonic机制和作者提供的排名应用于评审过程。例如,可以利用这些信息来协助高级领域主席监督领域主席的推荐,支持论文奖项的选择,以及指导紧急评审人的招募。

论文链接:https://arxiv.org/abs/2408.13430

目录
相关文章
|
23天前
|
消息中间件 Apache 云计算
阿里云消息团队创新论文被软件工程顶会 FM 2024 录用
此论文灵感来源于 RocketMQ 适配阿里云倚天 CPU 的性能优化过程中。RocketMQ 此前在发送消息的过程中存在两种锁:自旋锁和互斥锁。本文旨在提出一种新的自适应 K 值退避锁,能够让高并发系统的部署者无需考虑两种锁的优劣势,只需使用一把锁即可实现性能的最优以及最低的资源损耗。
|
2月前
|
自然语言处理 数据安全/隐私保护
整合 200 多项相关研究,大模型终生学习最新综述来了
【9月更文挑战第26天】近年来,大型语言模型(LLMs)在自然语言处理、智能问答及内容生成等领域广泛应用。面对不断变化的数据、任务和用户偏好,LLMs需具备适应能力。传统静态数据集训练方式难以满足需求,因此提出了“终身学习”方法,使模型持续学习新知识并避免遗忘旧知识。最新综述文章整合200多项研究,将终身学习分为内部知识(连续预训练和微调)与外部知识(基于检索和工具)两大类,涵盖12种应用场景,探讨了模型扩展和数据选择等新兴技术。然而,终身学习也面临计算资源、知识冲突及数据安全等挑战。
53 6
|
3月前
|
数据可视化 决策智能 Python
【江西省研究生数学建模竞赛】题目之二 国际“合作-冲突”的演化规律研究 建模方案及参考文献
本文介绍了江西省研究生数学建模竞赛题目之二“国际‘合作-冲突’的演化规律研究”的建模方案和参考文献,探讨了如何通过博弈论和决策树模型来分析和预测国家间的合作与冲突行为,并提出了评估国际环境和应对突发事件的策略。
46 0
【江西省研究生数学建模竞赛】题目之二 国际“合作-冲突”的演化规律研究 建模方案及参考文献
|
3月前
|
机器学习/深度学习 监控 安全
【2023 年第十三届 MathorCup 高校数学建模挑战赛】D 题 航空安全风险分析和飞行技术评估问题 27页论文及代码
本文介绍了2023年第十三届MathorCup高校数学建模挑战赛D题的解决方案,涉及航空安全风险分析和飞行技术评估问题,提出了基于主成分分析、梯度提升决策树(GBDT)和BP-神经网络模型的综合方法,并通过27页的论文详细阐述了建模过程和仿真模拟结果。
52 0
【2023 年第十三届 MathorCup 高校数学建模挑战赛】D 题 航空安全风险分析和飞行技术评估问题 27页论文及代码
|
4月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
43 4
|
4月前
|
监控 数据可视化 数据挖掘
软考高项八大绩效域及论文纲要
软考高项八大绩效域及论文纲要
55 2
|
6月前
|
人工智能 自然语言处理 监控
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
97 1
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
|
6月前
|
人工智能
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
最近,一篇发表在《Surfaces and Interfaces》的论文引起了广泛关注,因为其中意外包含了ChatGPT的提示语,暴露出学术审稿过程中的疏忽。这篇论文讨论了铜基金属-有机框架-芳香族纤维素分隔器对锂金属阳极电池的影响,但却出现了不该出现的ChatGPT对话内容。这一事件不仅令人哭笑不得,还引发了对学术审核严谨性的质疑。它反映了当前学术界可能过度依赖AI写作工具,忽略了基本的检查和编辑步骤。这一事件提醒学术界必须加强审查机制和自律,确保论文质量,防止类似尴尬情况的再次发生。
217 4
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
|
6月前
|
测试技术 数据库 开发工具
高校奖学金评定系统的设计与实现(论文+源码)_kaic
高校奖学金评定系统的设计与实现(论文+源码)_kaic
|
机器学习/深度学习 人工智能 自然语言处理
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
下一篇
无影云桌面