NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链(1)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链


机器之心编辑部

在回答复杂的问题时,人类可以理解不同模态的信息,并形成一个完整的思维链(Chain of Thought, CoT)。深度学习模型是否可以打开「黑箱」,对其推理过程提供一个思维链呢?近日,UCLA 和艾伦人工智能研究院(AI2)提出了首个标注详细解释的多模态科学问答数据集 ScienceQA,用于测试模型的多模态推理能力。在 ScienceQA 任务中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思维链的提示学习,从而使得模型能在生成答案的同时,生成相应的推理解释。GPT-3 (CoT) 在 ScienceQA 上实现了 75.17% 的准确率;并且人类评估表明,其可以生成较高质量的解释。


像人类一样有效地学习并完成复杂的任务是人工智能追求的长远目标之一。人类在决策过程中可以遵循一个完整的思维链(CoT)推理过程,从而对给出的答案做出合理的解释。


然而,已有的机器学习模型大多依赖大量的输入 - 输出样本训练来完成具体的任务。这些黑箱模型往往直接生成最终的答案,而没有揭示具体的推理过程。


科学问答任务(Science Question Answering)可以很好地诊断人工智能模型是否具有多步推理能力和可解释性。为了回答科学问题,一个模型不仅需要理解多模态内容,还需要提取外部知识以得出正确答案。同时,一个可靠的模型还应该给出揭示其推理过程的解释。然而,目前的科学问答数据集大多缺乏对答案的详细解释,或者局限于文字模态。


因此,作者收集了全新的科学问答数据集 ScienceQA,它包含了 21,208 道来自中小学科学课程的问答多选题。一道典型的问题包含多模态的背景(context)、正确的选项、通用的背景知识(lecture)以及具体的解释(explanation)


ScienceQA 数据集的一个例子。

要回答上图所示的例子,我们首先要回忆关于力的定义:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一个多步的推理过程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最终得到正确答案:「This force is a pull. 」。


在 ScienceQA 任务中,模型需要在预测答案的同时输出详细地解释。在本文中,作者利用大规模语言模型生成背景知识和解释,作为一种思维链(CoT)来模仿人类具有的多步推理能力


实验表明,目前的多模态问答方法在 ScienceQA 任务不能取得很好的表现。相反,通过基于思维链的提示学习,GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率,同时可以生成质量较高的解释:根据人类评估,其中 65.2% 的解释相关、正确且完整。思维链也可以帮助 UnifiedQA 模型在 ScienceQA 数据集上取得 3.99% 的提升。



1、ScienceQA 数据集


数据集统计


ScienceQA 的主要统计信息如下所示。


ScienceQA 数据集的主要信息


ScienceQA 包含 21208 个例子, 其中有 9122 个不同的问题(question)。10332 道(48.7%)有视觉背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有视觉 + 文本的背景信息。绝大部分问题标注有详细的解释:83.9% 的问题有背景知识标注(lecture),而 90.5% 的问题有详细的解答(explanation)。

 

ScienceQA 数据集中问题和背景分布。

数据集主题分布


不同于已有的数据集,ScienceQA 涵盖自然科学、社会科学和语言学三大学科分支,包含 26 个主题(topic)、127 个分类(category)和 379 个知识技能(skill)

 

ScienceQA 的主题分布。

数据集词云分布


如下图的词云分布所示,ScienceQA 中的问题具有丰富的语义多样性。模型需要理解不同的问题表达、场景和背景知识。


ScienceQA 的词云分布。


相关文章
|
1月前
|
机器学习/深度学习 人工智能 文字识别
中药材图像识别数据集(100类,9200张)|适用于YOLO系列深度学习分类检测任务
本数据集包含9200张中药材图像,覆盖100种常见品类,已标注并划分为训练集与验证集,支持YOLO等深度学习模型。适用于中药分类、目标检测、AI辅助识别及教学应用,助力中医药智能化发展。
|
2月前
|
机器学习/深度学习 存储 PyTorch
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
Neural ODE将神经网络与微分方程结合,用连续思维建模数据演化,突破传统离散层的限制,实现自适应深度与高效连续学习。
152 3
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
|
1月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
3月前
|
机器学习/深度学习 人工智能 监控
河道塑料瓶识别标准数据集 | 科研与项目必备(图片已划分、已标注)| 适用于YOLO系列深度学习分类检测任务【数据集分享】
随着城市化进程加快和塑料制品使用量增加,河道中的塑料垃圾问题日益严重。塑料瓶作为河道漂浮垃圾的主要类型,不仅破坏水体景观,还威胁水生生态系统的健康。传统的人工巡查方式效率低、成本高,难以满足实时监控与治理的需求。
|
3月前
|
机器学习/深度学习 传感器 人工智能
火灾火焰识别数据集(2200张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
在人工智能和计算机视觉的快速发展中,火灾检测与火焰识别逐渐成为智慧城市、公共安全和智能监控的重要研究方向。一个高质量的数据集往往是推动相关研究的核心基础。本文将详细介绍一个火灾火焰识别数据集,该数据集共包含 2200 张图片,并已按照 训练集(train)、验证集(val)、测试集(test) 划分,同时配有对应的标注文件,方便研究者快速上手模型训练与评估。
火灾火焰识别数据集(2200张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
7种交通场景数据集(千张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
在智能交通与自动驾驶技术快速发展的今天,如何高效、准确地感知道路环境已经成为研究与应用的核心问题。车辆、行人和交通信号灯作为城市交通系统的关键元素,对道路安全与交通效率具有直接影响。然而,真实道路场景往往伴随 复杂光照、遮挡、多目标混杂以及交通信号状态多样化 等挑战,使得视觉识别与检测任务难度显著增加。
|
3月前
|
机器学习/深度学习 人工智能 监控
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
坐姿标准好坏姿态数据集的发布,填补了计算机视觉领域在“细分健康行为识别”上的空白。它不仅具有研究价值,更在实际应用层面具备广阔前景。从青少年的健康教育,到办公室的智能提醒,再到驾驶员的安全监控和康复训练,本数据集都能发挥巨大的作用。
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
3月前
|
机器学习/深度学习 数据采集 算法
PCB电路板缺陷检测数据集(近千张图片已划分、已标注)| 适用于YOLO系列深度学习检测任务【数据集分享】
在现代电子制造中,印刷电路板(PCB)是几乎所有电子设备的核心组成部分。随着PCB设计复杂度不断增加,人工检测PCB缺陷不仅效率低,而且容易漏检或误判。因此,利用计算机视觉和深度学习技术对PCB缺陷进行自动检测成为行业发展的必然趋势。
PCB电路板缺陷检测数据集(近千张图片已划分、已标注)| 适用于YOLO系列深度学习检测任务【数据集分享】
|
2月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
206 0
|
机器学习/深度学习 人工智能 监控
单车、共享单车已标注数据集(图片已划分、已标注)|适用于深度学习检测任务【数据集分享】
数据是人工智能的“燃料”。一个高质量、标注精准的单车与共享单车数据集,不仅能够推动学术研究的进步,还能为智慧交通、智慧城市的建设提供有力支撑。 在计算机视觉领域,研究者们常常会遇到“数据鸿沟”问题:公开数据集与真实业务需求之间存在不匹配。本次分享的数据集正是为了弥补这一不足,使得研究人员与工程师能够快速切入单车检测领域,加速模型从实验室走向真实应用场景。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI
  • 下一篇
    oss云网关配置