今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3(3)

简介: 今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3

高考实验:迈向人类水平的 AI

该研究收集了 10 份高考英语试卷,包括 2018 年国考 I/III、2019 年国考 I/II/III、2020 年国考 I/II/III、2021 年全国卷 A/B。这些试卷遵循相同的题型,他们将所有考试题型分为以下七个子类别,如表 7 所示:


每篇高考英语试卷满分 150 分。听力、完形填空、阅读、写作分别占 30、45、40、35。通常,写作部分是主观的,需要人工评估,而其他部分是客观的,可以自动评分。如表 8 所示:


使用表 1 中所示的重构工程循环来构建高考英语 AI 系统,即 Qin。整个过程如图 14 所示:


该研究使用以下 prompt 将原始信号元组转换为 prompt 样本,如表 9 所示:


实验结果如表 10-11 所示,我们可以得出以下结论:在每一份英语试卷中,RST 在两套听力考试中取得了最高的总分,平均分数为 130.6 分;与 T0pp 相比,RST 的性能要远远优于相同模型大小下的 T0pp。在所有设置中,RST 获得的总分平均比 T0pp 高出 54.5 分,最高差距为 69 分(占总分的 46%);与 GPT3 相比,RST 可以在模型大小小 16 倍的情况下取得明显更好的结果。在所有考虑的设置中,RST 获得的总分平均比 T0pp 高 14.0 分,最高为 26 分(占总分的 17%);对于 T0pp,使用黄金和语音转文本成绩单获得的听力分数差异很大,平均为 4.2 分。相比之下,GPT3 和 RST 分别为 0.6 和 0.45,表明 T0pp 的性能对文本质量很敏感。



该研究进行了细粒度分析,以了解不同模型在不同问题子类别上的表现。在图 15-(a) 中,很明显 RST 和 GPT3 在每个问题子类别上都优于 T0pp。

图 15-(b)为近年来模型的表现和学生在全国试卷上的平均表现。很明显,T0pp 在 9/10 试卷上的总分低于学生的平均水平,而 RST 和 GPT3 的表现则超过了学生的平均水平。尤其是这十份试卷中有五份,RST 的总分超过了 130(通常被认为是学生争取的目标分数)。


2022 年高考 - 英语考试(2022.06.08)刚刚结束,了解到模型在最近一年的高考试卷中的表现。该研究用 GPT3 和 RST 进行实验。结果显示 RST 总分达到 134,远高于 GPT3 达到的 108 分。


论文最后还有三个彩蛋,更多详细内容,请查看原论文。

相关文章
|
5月前
|
人工智能 算法
国内AI大模型高考数学成绩超GPT-4o
【7月更文挑战第13天】国内AI大模型高考数学成绩超GPT-4o
|
5月前
|
自然语言处理 PyTorch API
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
|
机器学习/深度学习 缓存 移动开发
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
|
机器学习/深度学习 缓存 人工智能
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 无需注意力的预训练;被GPT带飞的In-Context Learning
7 Papers & Radios | 无需注意力的预训练;被GPT带飞的In-Context Learning
142 0
|
5月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
53 3
|
5月前
|
存储 NoSQL 索引
Python 金融编程第二版(GPT 重译)(一)(4)
Python 金融编程第二版(GPT 重译)(一)
64 2
|
5月前
|
存储 机器学习/深度学习 关系型数据库
Python 金融编程第二版(GPT 重译)(四)(5)
Python 金融编程第二版(GPT 重译)(四)
38 2
|
5月前
|
存储 SQL 数据可视化
Python 金融编程第二版(GPT 重译)(四)(1)
Python 金融编程第二版(GPT 重译)(四)
51 2

热门文章

最新文章

下一篇
DataWorks