NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链（2）-阿里云开发者社区

NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链（2）

2023-05-17 385

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，5000CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链

数据集比较

ScienceQA 是第一个标注详细解释的多模态科学问答数据集。相比于已有的数据集，ScienceQA 的数据规模、题型多样性、主题多样性等多个维度体现了优势。

ScienceQA 数据集与其它科学问答数据集的比较。

2、模型和方法

Baselines

作者在 ScienceQA 数据集了评估不同的基准方法，包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT，大规模语言模型如 UnifiedQA 和 GPT-3，以及 random chance 和 human performance。对于语言模型 UnifiedQA 和 GPT-3，背景图片会被转换成文本形式的注释（caption）。

GPT-3 (CoT)

最近的研究工作表明，在给定合适的提示后，GPT-3 模型可以在不同的下游任务表现出卓越的性能。为此，作者提出 GPT-3 (CoT) 模型，在提示中加入思维链（CoT），使得模型在生成答案的同时，可以生成对应的背景知识和解释。

具体的提示模板如下图所示。其中 Ii 表示训练例子，It 表示测试例子。训练例子包含问题（Question）、选项（Options）、背景（Context）和答案（Answer）元素，其中答案由正确答案、背景知识（Lecture）和解释（Explanation）组成。GPT-3 (CoT) 会根据输入的提示信息，补全测试例子的预测答案、背景知识和解释。

GPT-3 (CoT) 采用的提示模板。

3、实验与分析

实验结果

不同的基准和方法在 ScienceQA 测试集上的准确率结果如下表所示。当前最好的 VQA 模型之一的 VisualBERT 只能达到 61.87% 的准确率。在训练的过程引入 CoT 数据，UnifiedQA_BASE 模型可以实现 74.11% 的准确率。而 GPT-3 (CoT) 在 2 个训练例子的提示下，实现了 75.17% 的准确率，高于其它基准模型。人类在 ScienceQA 数据集上表现优异，可以达到 88.40% 的总体准确率，并且在不同类别的问题上表现稳定。

不同的方法在 ScienceQA 测试集上的结果。

生成解释的评估

作者用自动评估指标如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 评估了不同方法生成的解释。由于自动评估指标只能衡量预测结果和标注内容的相似性，因此作者进一步采用了人工评估的方法，来评估生成解释的相关性、正确性和完整性。可以看到，GPT-3 (CoT) 生成的解释中 65.2% 符合了 Gold 标准。

不同评估方法对生成解释的结果。

不同的提示模板

作者比较了不同的提示模板对 GPT-3 (CoT) 准确率的影响。可以看到在 QAM-ALE 的模板下，GPT-3 (CoT) 可以获得最大的平均准确率和最小的方差。另外，GPT-3 (CoT) 在 2 个训练例子的提示下，表现最佳。

不同提示模板的结果比较。

模型上限

为了探索 GPT-3 (CoT) 模型的性能上限，作者把标注的背景知识和解释加入模型的输入（QCMLE*-A）。我们可以看到 GPT-3 (CoT) 可以实现高达 94.13% 的准确率。这也提示了模型提升的一个可能方向：模型可以进行分步推理，即先检索到准确的背景知识和生成准确的解释，然后把这些结果作为输入。这个过程和人类解决复杂问题的过程很相似。

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者进一步讨论了 GPT-3 (CoT) 在生成预测时，不同的 ALE 位置对结果的影响。在 ScienceQA 上的实验结果表明，如果 GPT-3 (CoT) 先生成背景知识 L 或解释 E，再生成答案 A，其预测准确率会大幅下降。其主要原因是背景知识 L 和解释 E 有较多的词语数量，如果先生成 LE，GPT-3 模型有可能用完最大词数，或者提前停止生成文本，从而不能得到最终的答案 A。

不同的 LE 位置。

成功案例

如下 4 个例子中，GPT-3 (CoT) 不但能生成正确的答案，也能给出相关、正确且完整的解释。这说明 GPT-3 (CoT) 在 ScienceQA 数据集上表现出较强的多步推理和解释能力。

GPT-3 (CoT) 生成正确答案和解释的例子。

失败案例 I

在下面的三个例子中，GPT-3 (CoT) 虽然生成了正确的答案，但是生成的解释不相关、不正确或者不完整。这说明 GPT-3 (CoT) 对于生成逻辑一致的长序列还面临较大的困难。

GPT-3 (CoT) 能生成正确答案、但是生成的解释不正确的例子。

失败案例 II

在下面的四个例子中，GPT-3 (CoT) 不能生成正确的答案，也不能生成正确的解释。其中的原因有：（1）当前的 image captioning 模型还不能准确地描述示意图、表格等图片的语义信息，如果用图片注释文本表示图片，GPT-3 (CoT) 还不能很好地回答包含图表背景的问题；（2）GPT-3 (CoT) 生成长序列时，容易出现前后不一致（inconsistent）或不连贯（incoherent）的问题；（3）GPT-3 (CoT) 还不能很好地回答需要特定领域知识的问题。

GPT-3 (CoT) 能生成错误答案和解释的例子。

4、结论与展望

作者提出了首个标注详细解释的多模态科学问答数据集 ScienceQA。ScienceQA 包含 21208 道来自中小学科学学科的多选题，涵盖三大科学领域和丰富的话题，大部分问题标注有详细的背景知识和解释。ScienceQA 可以评估模型在多模态理解、多步推理和可解释性方面的能力。作者在 ScienceQA 数据集上评估了不同的基准模型，并提出 GPT-3 (CoT) 模型在生成答案的同时，可以生成相应的背景知识和解释。大量的实验分析和案例分析对模型的改进提出了有利的启发。

主要参考文献

[1] Pan Lu, Swaroop Mishra, Tony Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, Ashwin Kalyan, et al. Learn to explain: multimodal reasoning via thought chains for science question answering. In Advances in neural information processing systems (NeurIPS), 2022.

[2] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.

[3] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. In Advances in neural information processing systems (NeurIPS), 2020.

[4] Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. UnifiedQA: Crossing format boundaries with a single qa system. In Findings of the Association for Computational Linguistics (EMNLP), 2020.

[5] Aniruddha Kembhavi, Minjoon Seo, Dustin Schwenk, Jonghyun Choi, Ali Farhadi, and Hannaneh Hajishirzi. Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链（2）

ModelScope模型即服务

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景