NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链(2)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链

数据集比较

ScienceQA 是第一个标注详细解释的多模态科学问答数据集。相比于已有的数据集,ScienceQA 的数据规模、题型多样性、主题多样性等多个维度体现了优势。

 

ScienceQA 数据集与其它科学问答数据集的比较。

2、模型和方法


Baselines


作者在 ScienceQA 数据集了评估不同的基准方法,包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT,大规模语言模型如 UnifiedQA 和 GPT-3,以及 random chance 和 human performance。对于语言模型 UnifiedQA 和 GPT-3,背景图片会被转换成文本形式的注释(caption)。


GPT-3 (CoT)


最近的研究工作表明,在给定合适的提示后,GPT-3 模型可以在不同的下游任务表现出卓越的性能。为此,作者提出 GPT-3 (CoT) 模型,在提示中加入思维链(CoT),使得模型在生成答案的同时,可以生成对应的背景知识和解释


具体的提示模板如下图所示。其中 Ii 表示训练例子,It 表示测试例子。训练例子包含问题(Question)、选项(Options)、背景(Context)和答案(Answer)元素,其中答案由正确答案、背景知识(Lecture)和解释(Explanation)组成。GPT-3 (CoT) 会根据输入的提示信息,补全测试例子的预测答案、背景知识和解释。


GPT-3 (CoT) 采用的提示模板。

3、实验与分析


实验结果


不同的基准和方法在 ScienceQA 测试集上的准确率结果如下表所示。当前最好的 VQA 模型之一的 VisualBERT 只能达到 61.87% 的准确率。在训练的过程引入 CoT 数据,UnifiedQA_BASE 模型可以实现 74.11% 的准确率。而 GPT-3 (CoT) 在 2 个训练例子的提示下,实现了 75.17% 的准确率,高于其它基准模型。人类在 ScienceQA 数据集上表现优异,可以达到 88.40% 的总体准确率,并且在不同类别的问题上表现稳定。

 

不同的方法在 ScienceQA 测试集上的结果。

生成解释的评估


作者用自动评估指标如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 评估了不同方法生成的解释。由于自动评估指标只能衡量预测结果和标注内容的相似性,因此作者进一步采用了人工评估的方法,来评估生成解释的相关性、正确性和完整性。可以看到,GPT-3 (CoT) 生成的解释中 65.2% 符合了 Gold 标准

 

不同评估方法对生成解释的结果。

不同的提示模板


作者比较了不同的提示模板对 GPT-3 (CoT) 准确率的影响。可以看到在 QAM-ALE 的模板下,GPT-3 (CoT) 可以获得最大的平均准确率和最小的方差。另外,GPT-3 (CoT) 在 2 个训练例子的提示下,表现最佳。


不同提示模板的结果比较。

模型上限


为了探索 GPT-3 (CoT) 模型的性能上限,作者把标注的背景知识和解释加入模型的输入(QCMLE*-A)。我们可以看到 GPT-3 (CoT) 可以实现高达 94.13% 的准确率。这也提示了模型提升的一个可能方向:模型可以进行分步推理,即先检索到准确的背景知识和生成准确的解释,然后把这些结果作为输入。这个过程和人类解决复杂问题的过程很相似。


GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置


作者进一步讨论了 GPT-3 (CoT) 在生成预测时,不同的 ALE 位置对结果的影响。在 ScienceQA 上的实验结果表明,如果 GPT-3 (CoT) 先生成背景知识 L 或解释 E,再生成答案 A,其预测准确率会大幅下降。其主要原因是背景知识 L 和解释 E 有较多的词语数量,如果先生成 LE,GPT-3 模型有可能用完最大词数,或者提前停止生成文本,从而不能得到最终的答案 A。

 

不同的 LE 位置。

成功案例


如下 4 个例子中,GPT-3 (CoT) 不但能生成正确的答案,也能给出相关、正确且完整的解释。这说明 GPT-3 (CoT) 在 ScienceQA 数据集上表现出较强的多步推理和解释能力。

 

GPT-3 (CoT) 生成正确答案和解释的例子。

失败案例 I


在下面的三个例子中,GPT-3 (CoT) 虽然生成了正确的答案,但是生成的解释不相关、不正确或者不完整。这说明 GPT-3 (CoT) 对于生成逻辑一致的长序列还面临较大的困难。


GPT-3 (CoT) 能生成正确答案、但是生成的解释不正确的例子。

失败案例 II


在下面的四个例子中,GPT-3 (CoT) 不能生成正确的答案,也不能生成正确的解释。其中的原因有:(1)当前的 image captioning 模型还不能准确地描述示意图、表格等图片的语义信息,如果用图片注释文本表示图片,GPT-3 (CoT) 还不能很好地回答包含图表背景的问题;(2)GPT-3 (CoT) 生成长序列时,容易出现前后不一致(inconsistent)或不连贯(incoherent)的问题;(3)GPT-3 (CoT) 还不能很好地回答需要特定领域知识的问题。



GPT-3 (CoT) 能生成错误答案和解释的例子。

4、结论与展望


作者提出了首个标注详细解释的多模态科学问答数据集 ScienceQA。ScienceQA 包含 21208 道来自中小学科学学科的多选题,涵盖三大科学领域和丰富的话题,大部分问题标注有详细的背景知识和解释。ScienceQA 可以评估模型在多模态理解、多步推理和可解释性方面的能力。作者在 ScienceQA 数据集上评估了不同的基准模型,并提出 GPT-3 (CoT) 模型在生成答案的同时,可以生成相应的背景知识和解释。大量的实验分析和案例分析对模型的改进提出了有利的启发。


主要参考文献


[1] Pan Lu, Swaroop Mishra, Tony Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, Ashwin Kalyan, et al. Learn to explain: multimodal reasoning via thought chains for science question answering. In Advances in neural information processing systems (NeurIPS), 2022.

[2] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.

[3] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. In Advances in neural information processing systems (NeurIPS), 2020.

[4] Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. UnifiedQA: Crossing format boundaries with a single qa system. In Findings of the Association for Computational Linguistics (EMNLP), 2020.

[5] Aniruddha Kembhavi, Minjoon Seo, Dustin Schwenk, Jonghyun Choi, Ali Farhadi, and Hannaneh Hajishirzi. Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

相关文章
|
2天前
|
机器学习/深度学习 大数据 计算机视觉
构建高效图像分类模型:深度学习在特征提取中的应用
【5月更文挑战第21天】 当前研究探索了深度学习技术在图像分类问题中的应用,并提出了一种新型的卷积神经网络(CNN)架构。该网络通过优化传统CNN结构中的层次和参数配置,显著提升了图像识别的准确性与处理速度。实验结果表明,新提出的模型在多个标准数据集上达到了较高的分类准确率,同时保持了较低的计算成本。本研究不仅为图像分类领域提供了一种高效的解决方案,也为后续深度学习模型的设计提供了有价值的参考。
|
2天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:迁移学习与预训练模型
使用Python实现深度学习模型:迁移学习与预训练模型
19 0
|
2天前
|
机器学习/深度学习 算法 计算机视觉
构建高效图像分类模型:深度学习在特征提取中的应用
【5月更文挑战第20天】 在计算机视觉领域,图像分类任务是识别和分配数字图像到相应的类别中。随着深度学习技术的兴起,卷积神经网络(CNN)已经成为实现高精度图像分类的核心技术。本文将重点探讨利用深度学习进行图像特征提取的方法,并构建一个高效的图像分类模型。通过对比不同的网络架构、激活函数及其优化算法,我们旨在提供一套系统的方法论来改善模型的性能。
|
3天前
|
机器学习/深度学习 人工智能 算法
食物识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
食物识别系统采用TensorFlow的ResNet50模型,训练了包含11类食物的数据集,生成高精度H5模型。系统整合Django框架,提供网页平台,用户可上传图片进行食物识别。效果图片展示成功识别各类食物。[查看演示视频、代码及安装指南](https://www.yuque.com/ziwu/yygu3z/yhd6a7vai4o9iuys?singleDoc#)。项目利用深度学习的卷积神经网络(CNN),其局部感受野和权重共享机制适于图像识别,广泛应用于医疗图像分析等领域。示例代码展示了一个使用TensorFlow训练的简单CNN模型,用于MNIST手写数字识别。
18 3
|
6天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:变分自编码器(VAE)
使用Python实现深度学习模型:变分自编码器(VAE)
15 2
|
6天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:生成对抗网络(GAN)
使用Python实现深度学习模型:生成对抗网络(GAN)
21 3
|
7天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:自动编码器(Autoencoder)
使用Python实现深度学习模型:自动编码器(Autoencoder)
11 0
|
8天前
|
机器学习/深度学习 数据采集 人工智能
深度学习中的大模型「幻觉」问题:解析、原因及未来展望
深度学习中的大模型「幻觉」问题:解析、原因及未来展望
35 0
|
8天前
|
机器学习/深度学习 TensorFlow API
Python深度学习基于Tensorflow(3)Tensorflow 构建模型
Python深度学习基于Tensorflow(3)Tensorflow 构建模型
73 2
|
8天前
|
机器学习/深度学习 自然语言处理 算法
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码

相关产品

  • 人工智能平台 PAI