高考实验:迈向人类水平的 AI
该研究收集了 10 份高考英语试卷,包括 2018 年国考 I/III、2019 年国考 I/II/III、2020 年国考 I/II/III、2021 年全国卷 A/B。这些试卷遵循相同的题型,他们将所有考试题型分为以下七个子类别,如表 7 所示:
每篇高考英语试卷满分 150 分。听力、完形填空、阅读、写作分别占 30、45、40、35。通常,写作部分是主观的,需要人工评估,而其他部分是客观的,可以自动评分。如表 8 所示:
使用表 1 中所示的重构工程循环来构建高考英语 AI 系统,即 Qin。整个过程如图 14 所示:
该研究使用以下 prompt 将原始信号元组转换为 prompt 样本,如表 9 所示:
实验结果如表 10-11 所示,我们可以得出以下结论:在每一份英语试卷中,RST 在两套听力考试中取得了最高的总分,平均分数为 130.6 分;与 T0pp 相比,RST 的性能要远远优于相同模型大小下的 T0pp。在所有设置中,RST 获得的总分平均比 T0pp 高出 54.5 分,最高差距为 69 分(占总分的 46%);与 GPT3 相比,RST 可以在模型大小小 16 倍的情况下取得明显更好的结果。在所有考虑的设置中,RST 获得的总分平均比 T0pp 高 14.0 分,最高为 26 分(占总分的 17%);对于 T0pp,使用黄金和语音转文本成绩单获得的听力分数差异很大,平均为 4.2 分。相比之下,GPT3 和 RST 分别为 0.6 和 0.45,表明 T0pp 的性能对文本质量很敏感。
该研究进行了细粒度分析,以了解不同模型在不同问题子类别上的表现。在图 15-(a) 中,很明显 RST 和 GPT3 在每个问题子类别上都优于 T0pp。
图 15-(b)为近年来模型的表现和学生在全国试卷上的平均表现。很明显,T0pp 在 9/10 试卷上的总分低于学生的平均水平,而 RST 和 GPT3 的表现则超过了学生的平均水平。尤其是这十份试卷中有五份,RST 的总分超过了 130(通常被认为是学生争取的目标分数)。
2022 年高考 - 英语考试(2022.06.08)刚刚结束,了解到模型在最近一年的高考试卷中的表现。该研究用 GPT3 和 RST 进行实验。结果显示 RST 总分达到 134,远高于 GPT3 达到的 108 分。
论文最后还有三个彩蛋,更多详细内容,请查看原论文。