NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链（1）-阿里云开发者社区

NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链（1）

2023-05-17 802

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链

机器之心编辑部

在回答复杂的问题时，人类可以理解不同模态的信息，并形成一个完整的思维链（Chain of Thought, CoT）。深度学习模型是否可以打开「黑箱」，对其推理过程提供一个思维链呢？近日，UCLA 和艾伦人工智能研究院（AI2）提出了首个标注详细解释的多模态科学问答数据集 ScienceQA，用于测试模型的多模态推理能力。在 ScienceQA 任务中，作者提出 GPT-3 (CoT) 模型，即在 GPT-3 模型中引入基于思维链的提示学习，从而使得模型能在生成答案的同时，生成相应的推理解释。GPT-3 (CoT) 在 ScienceQA 上实现了 75.17% 的准确率；并且人类评估表明，其可以生成较高质量的解释。

像人类一样有效地学习并完成复杂的任务是人工智能追求的长远目标之一。人类在决策过程中可以遵循一个完整的思维链（CoT）推理过程，从而对给出的答案做出合理的解释。

然而，已有的机器学习模型大多依赖大量的输入 - 输出样本训练来完成具体的任务。这些黑箱模型往往直接生成最终的答案，而没有揭示具体的推理过程。

科学问答任务（Science Question Answering）可以很好地诊断人工智能模型是否具有多步推理能力和可解释性。为了回答科学问题，一个模型不仅需要理解多模态内容，还需要提取外部知识以得出正确答案。同时，一个可靠的模型还应该给出揭示其推理过程的解释。然而，目前的科学问答数据集大多缺乏对答案的详细解释，或者局限于文字模态。

因此，作者收集了全新的科学问答数据集 ScienceQA，它包含了 21,208 道来自中小学科学课程的问答多选题。一道典型的问题包含多模态的背景（context）、正确的选项、通用的背景知识（lecture）以及具体的解释（explanation）。

ScienceQA 数据集的一个例子。

要回答上图所示的例子，我们首先要回忆关于力的定义：「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」，然后形成一个多步的推理过程：「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」，最终得到正确答案：「This force is a pull. 」。

在 ScienceQA 任务中，模型需要在预测答案的同时输出详细地解释。在本文中，作者利用大规模语言模型生成背景知识和解释，作为一种思维链（CoT）来模仿人类具有的多步推理能力。

实验表明，目前的多模态问答方法在 ScienceQA 任务不能取得很好的表现。相反，通过基于思维链的提示学习，GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率，同时可以生成质量较高的解释：根据人类评估，其中 65.2% 的解释相关、正确且完整。思维链也可以帮助 UnifiedQA 模型在 ScienceQA 数据集上取得 3.99% 的提升。

论文链接：https://arxiv.org/abs/2209.09513
代码链接：https://github.com/lupantech/ScienceQA
项目主页：https://scienceqa.github.io/
数据可视化：https://scienceqa.github.io/explore.html
Leaderboard：https://scienceqa.github.io/leaderboard.html

1、ScienceQA 数据集

数据集统计

ScienceQA 的主要统计信息如下所示。

ScienceQA 数据集的主要信息

ScienceQA 包含 21208 个例子，其中有 9122 个不同的问题（question）。10332 道（48.7%）有视觉背景信息，10220 道（48.2%）有文本背景信息，6532 道（30.8%）有视觉 + 文本的背景信息。绝大部分问题标注有详细的解释：83.9% 的问题有背景知识标注（lecture），而 90.5% 的问题有详细的解答（explanation）。

ScienceQA 数据集中问题和背景分布。