GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账

简介: GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账


避重就轻的解释,还是没能获得大家的认可。

几天前,一篇名为《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的论文经历了一场舆论风波。

论文地址:https://arxiv.org/pdf/2306.08997.pdf


最初,研究团队从 MIT 的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中,整理出了一个包含 4550 个问题和解决方案的综合数据集,并让各种大语言模型去完成这个数据集的题目,得出了「GPT-4 几乎满分通过 MIT EECS 和数学本科考试」的结论。


这一结果很快被人指出不够严谨,还给出了多项证据和详尽的分析,表示数据集本身就有问题,用 GPT-4 自动打分的评价机制也很有问题:


「我们的批评主要是针对这项研究的方法和严谨性,而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见,只是认为本文未能以科学严谨的方式证明这一点。」


面对扑面而来的质疑,研究团队在接下来的一周里却没有进行任何公开回应,没有承认,也没有道歉。


但在昨天,人们等到了来自几位教授(也是论文作者)署名的官方通报:


6 月 24 日,Armando Solar-Lezama(MIT EECS 教授和 CSAIL 首席运营官 / 副主任)、Tonio Buonassisi(MIT 机械工程教授)和 Yoon Kim(MIT EECS 和 CSAIL 助理教授)就该论文情况发表了公开声明。


声明内容如下:

6 月 15 日,Iddo Drori 在 arXiv 上发布了一篇与麻省理工学院几十门课程的考试和作业数据集相关的研究论文,他这样做没有得到其他合著者的同意,尽管已经被告知在发表前应该纠正的问题。我们中的一个人在周末旅行后,于 6 月 18 日星期天才知道这个帖子。


在处理这件事的过程中,我们发现,与 Drori 向我们和为该项目收集数据的学生所传达的信息相反,Drori 并没有得到所有导师的许可来收集构成论文主题的数据集的作业和考试题。其中一些涉及课程的导师,在论文出现在社交媒体上和 Drori 未经许可在网上发布数据样本时,才知道这个数据集的存在且其中包含了自己的课程材料。

这些都是正在通过机构渠道解决的严重问题,所以我们不愿意公开发表这样的声明,但我们觉得有必要解释为什么这篇论文不应该被发表而必须被撤回。我们已经要求 Drori 从 arXiv 撤回这篇论文,并且直接联系了 arXiv 解释了这个情况。


我们想强调的是,这篇论文中的所有学生作者都非常努力地工作,如果数据是在同意的情况下收集的,这本来是一篇非常有趣和宝贵的论文。已经发表的工作中出现的问题并不是学生的错。


而且,GPT-4 不能获得麻省理工学院的学位。

这样一份调查声明,真的足够了吗?回想一周前三位质疑者提交的分析,数据集被污染、手动检查的结果与论文所说的「几乎满分通过」相差甚远,这至少意味着论文内容应该被重新审查。


显然,并不是所有人都对调查结果满意,有人表示这是避重就轻的说法,只是关注他们不应该使用这些数据的事实,而不提捏造结果的错误。


「所以这三位麻省理工学院的教授认为,未经同意使用数据是论文的唯一问题。」


针对「这本来是一篇非常有趣和宝贵的论文」的说法,更多人点了反对:「让 GPT-4 给自己生成的答案打分,这就是有趣和宝贵吗?」


另外,有人发现 Iddo Drori 的个人主页已经更新,删掉了「MIT 客座教授」的 title。而且根据领英主页的信息,他将在这个月结束自己的 MIT 访问之旅。


「一些教授决定让一位客座讲师成为替罪羊,并试图将每个人的注意力从方法论转移到数据隐私问题上,却没有批评这篇论文。这是多么典型的学术政治问题。」


正如三位质疑者在博客中所写的那样:「这篇论文道出了最近人工智能领域研究的一个更大趋势。随着该领域的进展越来越快,新发现的时间节奏似乎在缩短,这往往伴随着捷径。一个特别令人担忧的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。」


对于此事,你怎么看?

相关文章
|
16天前
|
人工智能 自然语言处理 监控
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
23 1
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
|
2月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
33 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
|
3月前
|
程序员
用GPT在技术面试作弊,竟没有一个面试官发现?
用GPT在技术面试作弊,竟没有一个面试官发现?
115 2
|
4月前
|
存储 缓存 前端开发
【让AI为面试赋能系列】利用GPT回答网友的面试题1.0
【让AI为面试赋能系列】利用GPT回答网友的面试题1.0
|
9月前
|
Web App开发 监控 安全
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
|
9月前
|
Web App开发 机器学习/深度学习 人工智能
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群
104 0
|
9月前
|
人工智能 自然语言处理 测试技术
只有GPT-4可以自我改进,GPT-3.5都不行,MIT&微软代码生成实验新发现
只有GPT-4可以自我改进,GPT-3.5都不行,MIT&微软代码生成实验新发现
|
10月前
|
人工智能 自然语言处理 机器人
「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%
「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%
154 0
|
11月前
|
机器学习/深度学习 人工智能 测试技术
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
|
11月前
|
存储 人工智能 缓存
GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议
GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议
101 0