NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链(1)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链


机器之心编辑部

在回答复杂的问题时,人类可以理解不同模态的信息,并形成一个完整的思维链(Chain of Thought, CoT)。深度学习模型是否可以打开「黑箱」,对其推理过程提供一个思维链呢?近日,UCLA 和艾伦人工智能研究院(AI2)提出了首个标注详细解释的多模态科学问答数据集 ScienceQA,用于测试模型的多模态推理能力。在 ScienceQA 任务中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思维链的提示学习,从而使得模型能在生成答案的同时,生成相应的推理解释。GPT-3 (CoT) 在 ScienceQA 上实现了 75.17% 的准确率;并且人类评估表明,其可以生成较高质量的解释。


像人类一样有效地学习并完成复杂的任务是人工智能追求的长远目标之一。人类在决策过程中可以遵循一个完整的思维链(CoT)推理过程,从而对给出的答案做出合理的解释。


然而,已有的机器学习模型大多依赖大量的输入 - 输出样本训练来完成具体的任务。这些黑箱模型往往直接生成最终的答案,而没有揭示具体的推理过程。


科学问答任务(Science Question Answering)可以很好地诊断人工智能模型是否具有多步推理能力和可解释性。为了回答科学问题,一个模型不仅需要理解多模态内容,还需要提取外部知识以得出正确答案。同时,一个可靠的模型还应该给出揭示其推理过程的解释。然而,目前的科学问答数据集大多缺乏对答案的详细解释,或者局限于文字模态。


因此,作者收集了全新的科学问答数据集 ScienceQA,它包含了 21,208 道来自中小学科学课程的问答多选题。一道典型的问题包含多模态的背景(context)、正确的选项、通用的背景知识(lecture)以及具体的解释(explanation)


ScienceQA 数据集的一个例子。

要回答上图所示的例子,我们首先要回忆关于力的定义:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一个多步的推理过程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最终得到正确答案:「This force is a pull. 」。


在 ScienceQA 任务中,模型需要在预测答案的同时输出详细地解释。在本文中,作者利用大规模语言模型生成背景知识和解释,作为一种思维链(CoT)来模仿人类具有的多步推理能力


实验表明,目前的多模态问答方法在 ScienceQA 任务不能取得很好的表现。相反,通过基于思维链的提示学习,GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率,同时可以生成质量较高的解释:根据人类评估,其中 65.2% 的解释相关、正确且完整。思维链也可以帮助 UnifiedQA 模型在 ScienceQA 数据集上取得 3.99% 的提升。



1、ScienceQA 数据集


数据集统计


ScienceQA 的主要统计信息如下所示。


ScienceQA 数据集的主要信息


ScienceQA 包含 21208 个例子, 其中有 9122 个不同的问题(question)。10332 道(48.7%)有视觉背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有视觉 + 文本的背景信息。绝大部分问题标注有详细的解释:83.9% 的问题有背景知识标注(lecture),而 90.5% 的问题有详细的解答(explanation)。

 

ScienceQA 数据集中问题和背景分布。

数据集主题分布


不同于已有的数据集,ScienceQA 涵盖自然科学、社会科学和语言学三大学科分支,包含 26 个主题(topic)、127 个分类(category)和 379 个知识技能(skill)

 

ScienceQA 的主题分布。

数据集词云分布


如下图的词云分布所示,ScienceQA 中的问题具有丰富的语义多样性。模型需要理解不同的问题表达、场景和背景知识。


ScienceQA 的词云分布。


相关文章
|
1天前
|
机器学习/深度学习 自然语言处理 TensorFlow
使用Python实现深度学习模型:注意力机制(Attention)
使用Python实现深度学习模型:注意力机制(Attention)
8 0
使用Python实现深度学习模型:注意力机制(Attention)
|
2天前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络模型的鱼眼镜头中人员检测算法matlab仿真
该内容是一个关于基于YOLOv2的鱼眼镜头人员检测算法的介绍。展示了算法运行的三张效果图,使用的是matlab2022a软件。YOLOv2模型结合鱼眼镜头畸变校正技术,对鱼眼图像中的人员进行准确检测。算法流程包括图像预处理、网络前向传播、边界框预测与分类及后处理。核心程序段加载预训练的YOLOv2检测器,遍历并处理图像,检测到的目标用矩形标注显示。
|
3天前
|
机器学习/深度学习 大数据 计算机视觉
构建高效图像分类模型:深度学习在特征提取中的应用
【5月更文挑战第21天】 当前研究探索了深度学习技术在图像分类问题中的应用,并提出了一种新型的卷积神经网络(CNN)架构。该网络通过优化传统CNN结构中的层次和参数配置,显著提升了图像识别的准确性与处理速度。实验结果表明,新提出的模型在多个标准数据集上达到了较高的分类准确率,同时保持了较低的计算成本。本研究不仅为图像分类领域提供了一种高效的解决方案,也为后续深度学习模型的设计提供了有价值的参考。
|
3天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:迁移学习与预训练模型
使用Python实现深度学习模型:迁移学习与预训练模型
21 0
|
4天前
|
机器学习/深度学习 算法 计算机视觉
构建高效图像分类模型:深度学习在特征提取中的应用
【5月更文挑战第20天】 在计算机视觉领域,图像分类任务是识别和分配数字图像到相应的类别中。随着深度学习技术的兴起,卷积神经网络(CNN)已经成为实现高精度图像分类的核心技术。本文将重点探讨利用深度学习进行图像特征提取的方法,并构建一个高效的图像分类模型。通过对比不同的网络架构、激活函数及其优化算法,我们旨在提供一套系统的方法论来改善模型的性能。
|
4天前
|
机器学习/深度学习 人工智能 算法
食物识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
食物识别系统采用TensorFlow的ResNet50模型,训练了包含11类食物的数据集,生成高精度H5模型。系统整合Django框架,提供网页平台,用户可上传图片进行食物识别。效果图片展示成功识别各类食物。[查看演示视频、代码及安装指南](https://www.yuque.com/ziwu/yygu3z/yhd6a7vai4o9iuys?singleDoc#)。项目利用深度学习的卷积神经网络(CNN),其局部感受野和权重共享机制适于图像识别,广泛应用于医疗图像分析等领域。示例代码展示了一个使用TensorFlow训练的简单CNN模型,用于MNIST手写数字识别。
22 3
|
7天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:变分自编码器(VAE)
使用Python实现深度学习模型:变分自编码器(VAE)
17 2
|
8天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:生成对抗网络(GAN)
使用Python实现深度学习模型:生成对抗网络(GAN)
22 3
|
9天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:自动编码器(Autoencoder)
使用Python实现深度学习模型:自动编码器(Autoencoder)
12 0
|
9天前
|
机器学习/深度学习 数据采集 人工智能
深度学习中的大模型「幻觉」问题:解析、原因及未来展望
深度学习中的大模型「幻觉」问题:解析、原因及未来展望

相关产品

  • 人工智能平台 PAI