首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升(2)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升

5. 半监督预训练建模方案


我们的目标评测基准是剑桥 MultiWOZ2.0,亚马逊 MultiWOZ2.1 等经典对话数据集,该任务需要通过构建对话模型来进行用户意图识别、对话策略选择和回复生成。针对下游任务模型,我们直接沿用已有的端到端对话模型 UBAR [24],将其通用的 GPT-2 模型底座换成我们的 SPACE 模型底座,再进行相同设置下的评测。

 

5.1. 对话策略知识


对话策略是对话过程中的一个重要模块,一般用对话动作标签(dialog act, DA)来进行刻画,即给定双方的对话历史,对话策略需要选择出正确的对话动作用于指导对话生成(图 5)。当前各种常见预训练对话模型,如 Meena,DialoGPT 等往往都直接将对话动作的选择过程隐含建模到模型参数里,存在着不可解释和不可控等问题。由于策略是一种高层语义,难以仅仅利用自监督的方式就能很好地学习出来。因此,接下来我们将从对话策略建模出发,提出利用半监督的方式实现更好的预训练,将标注数据中的对话策略知识融入到预训练对话模型中来。


图 5:一轮完整对话过程

 

经过总结分析,我们从 ISO 国际对话动作标准 [25] 中归纳出了 20 个对于任务型对话最高频的对话动作集合(见图 6),并整理合并了现有的多个对话数据集,经过人工对齐删改后我们给出了目前最大的英文任务对话动作标注数据集 UniDA(一共 97 万轮次),同时我们也从各种公开论坛,开源 benchmark 等渠道收集处理得到了高质量的英文无标对话语料 UnDial (一共 3.5 千万轮次)。具体细节可参考论文 [1]。


图 6:英文对话 UniDA 体系

 

5.2. 策略知识注入


在本文中,我们提出利用半监督预训练的方式来解决对话策略的建模难题,将对话动作预测任务改造成半监督学习任务,并设计出 SPACE 系列的第一款预训练模型 SPACE 1.0 (亦即我们 AAAI 论文 [1] 中 GALAXY 模型)。


具体来看,SPACE1.0 采用了 encoder+decoder 架构,预训练的目标既包含了传统的建模对话理解和对话生成的自监督 loss,也包含了建模对话策略的半监督 loss,完整框架见图 7。


图 7:半监督对话预训练框架


首先,对于对话理解,我们采用了回复选择(response selection)作为预训练目标(如图 7 右侧所示),即给定对话上下文(context)和候选回复(response)在 [CLS] 处进行二分类判决是否是正确的回复。在诸多 PCM 工作中 [20][21] 中都已经证明了回复选择的训练对于对话理解至关重要,因此我们保留该目标。


对于对话生成,我们则使用了常见的回复生成(response generation)目标,即给定对话上下文生成正确回复语句(如图 7 左侧所示)。


图 8:基于 R-drop 的一致性正则损失


对于对话策略,我们采用了半监督学习中十分高效的一致性正则 (consistency regularization) 方法来建模对话动作。理论可以证明,在满足低密度假设下(即分类边界处于低密度分布),通过对同一个样本进行扰动后分类结果仍然具备一定程度上的一致性(即分布接近或预测结果接近),那么最终基于一致性正则的半监督学习可以保证找到正确的分类面 [23]。针对对话策略的具体损失函数组成如下:


针对无标对话数据,我们采用了 R-drop [22] 的思路,如图 7 所示,给定同样的对话输入 c,经过两次带有 dropout 的 forward 得到了两次经过随机扰动后在对话动作空间上预测的不同分布,然后通过双向 KL 正则损失函数来约束两个分布;

针对有标对话数据,我们则直接利用基础的有监督交叉熵 loss 来优化对话动作预测。


最终对于模型的预训练,我们将整个模型的理解、策略、生成目标加在一起进行优化。更多具体细节可参考论文 [1]。

 

6. 半监督预训练效果显著


我们在斯坦福的 In-Car [28],剑桥的 MultiWOZ2.0 [26] 和亚马逊的 MultiWOZ2.1 [27] 这三个国际对话数据集上进行效果验证。In-Car 数据集提出时间最早,是车载语音对话数据,一共有约 3k 个完整对话,难度较为简单;MultiWOZ2.0 是目前最大最难使用最广泛的任务型对话数据集,包含 1w 个完整对话,横跨 7 个场景,如订餐馆、订酒店等。MultiWOZ2.1 是在 MultiWOZ2.0 基础上进行人工标注校正后数据集。


如图 9 所示,经过半监督预训练融入策略知识后,可以看到我们的 SPACE1.0 模型在这些对话榜单上均大幅超过了之前的 SOTA 模型,端到端混合分数在 In-Car,MultiWOZ2.0 和 MultiWOZ2.1 分别提升 2.5,5.3 和 5.5 个点:


图 9:各数据集端到端得分总体结果比较


以上的结果充分证明了半监督预训练的效果。同时我们也做了低训练资源下实验,发现在利用不同训练数据比例下,我们的模型都保持着显著的效果提升。如图 10 所示,SPACE1.0 模型在仅利用 5% 训练数据量下就能够和利用全量 100% 训练数据的基于 GPT-2 的对话模型 SimpleTOD 可比,仅利用 10% 训练数据量就直接超过了利用全量训练数据量的基于 T5 的对话模型 MinTL。

 

图 10:低资源训练下端到端得分结果比较

 

我们也进行了案例分析,从图 11 中可以发现,相比之前的 SOTA 模型,SPACE1.0 模型能够预测出更加正确的对话动作,因此,合理的对话策略能够提升整体的端到端任务完成效果。


图 11:案例分析 Case Study


SPACE1.0 模型(即 GALAXY)目前在 MultiWOZ 官网上仍然排名第一,成绩截图如下所示:




7. 总结展望


本工作主要介绍了如何通过半监督预训练向大模型中注入特定的人类标注知识,从而使得模型在下游任务上有更加卓越的效果。和过往的半监督学习相比,我们关注的不再是如何降低对标注数据量的依赖,而是如何更加高效地融入特定标注知识,如下图 12 所示:


图 12:将半监督学习从下游训练推广到预训练过程

 

在后续的工作里,怎样将该范式进一步推广到各类 NLP 的任务中去,打造出一套有实用价值的半监督预训练 SPACE 模型体系,是需要持续探索的方向,具体包括:


知识自动选择:如何利用算法模型自动选择出合适的任务知识,从大量标注数据集中找出对目标下游任务最有用的数据集集合来进行半监督预训练是使得该范式成为通用范式的亟需研究问题。

半监督算法:目前我们尝试的是基于一致性正则化的半监督预训练方案,但整个半监督领域还有 self-taught, co-training, deep generative modeling 等诸多方法,如何综合利用他们是一个重要研究课题。

异构知识统一:本文中我们仅关注了分类标注知识,针对其他类型的标注知识,序列标注知识、层次化分类知识、回归标注等,如何进行更好的形式化表示,统一地融入到一个预训练模型中也是一个开放问题。

知识注入评价:如何更加定量且显式地度量出特定任务知识注入的程度,利用 probing 等方法对知识融入有个合理的评价也值得进一步的研究探索。


预训练模型的打造离不开强大的 AI 算力支持,SPACE 模型的研发也得益于阿里云 EFLOPS 团队提供的高效算力服务,在此鸣谢!


参考文献


[1].GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection. AAAI 2022.

[2].Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18 (7): 1527-1554.

[3].Devin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL 2019.

[4].C Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale. ICLR 2021.

[5].Xu H, Zhengyan Z, Ning D, et al. Pre-Trained Models: Past, Present and Future [J]. arXiv preprint arXiv:2106.07139, 2021.

[6].Clark K, Khandelwal U, Levy O, et al. What does bert look at? an analysis of bert's attention. BlackBoxNLP 2019.

[7].Tenney I, Das D, Pavlick E. BERT rediscovers the classical NLP pipeline. ACL 2019.

[8].Warstadt A, Cao Y, Grosu I, et al. Investigating BERT's Knowledge of Language: Five Analysis Methods with NPIs. ACL 20.

[9].Leyang Cui, Sijie Cheng, Yu Wu, Yue Zhang. On Commonsense Cues in BERT for Solving Commonsense Tasks. ACL-findings 2021.

[10].Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu. ERNIE: Enhanced Language Representation with Informative Entities. ACL 2019.

[11].Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, Ping Wang. K-BERT: Enabling Language Representation with Knowledge Graph. AAAI 2020.

[12].Xiaozhi Wang, Tianyu Gao, Zhaocheng Zhu, Zhengyan Zhang, Zhiyuan Liu, Juanzi Li, Jian Tang. KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. To appear at TACL.

[13].Xu Y, Li M, Cui L, et al. Layoutlm: Pre-training of text and layout for document image understanding [C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200.

[14].Jiuxiang Gu, et al. Unified Pretraining Framework for Document Understanding. NeurIPS 2021.

[15].Liu P, Yuan W, Fu J, et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing [J]. arXiv preprint arXiv:2107.13586, 2021.

[16].Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer [J]. arXiv preprint arXiv:1910.10683, 2019.

[17].Xiaojin Jerry Zhu. Semi-supervised learning literature survey. 2005.

[18].Zhang Y, Sun S, Galley M, et al. Dialogpt: Large-scale generative pre-training for conversational response generation. ACL 2020 demostration.

[19].Adiwardana D, Luong M T, So D R, et al. Towards a human-like open-domain chatbot [J]. arXiv preprint arXiv:2001.09977, 2020.

[20].Henderson M, Casanueva I, Mrkšić N, et al. Convert: Efficient and accurate conversational representations from transformers. EMNLP-findings 2019.

[21].Wu C S, Hoi S, Socher R, et al. TOD-BERT: pre-trained natural language understanding for task-oriented dialogue. EMNLP 2020.

[22].Liang X, Wu L, Li J, et al. R-drop: regularized dropout for neural networks. NeurlPS 2021.

[23].Verma V, Kawaguchi K, Lamb A, et al. Interpolation consistency training for semi-supervised learning. IJCAI 2019.

[24].Yang Y, Li Y, Quan X. UBAR: Towards Fully End-to-End Task-Oriented Dialog Systems with GPT-2 [J]. arXiv preprint arXiv:2012.03539, 2020.

[25].Bunt H, Alexandersson J, Carletta J, et al. Towards an ISO standard for dialogue act annotation [C]//Seventh conference on International Language Resources and Evaluation (LREC'10). 2010.

[26].Budzianowski P, Wen T H, Tseng B H, et al. MultiWOZ--A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling. EMNLP 2018.

[27].Eric M, Goel R, Paul S, et al. Multiwoz 2.1: Multi-domain dialogue state corrections and state tracking baselines. LREC 2020.

[28].Eric M, Manning C D. Key-value retrieval networks for task-oriented dialogue. SIGDIAL 2017.

[29].Wang W, Bi B, Yan M, et al.Structbert: incorporating language structures into pre-training for deep language understanding. ICLR 2019.

[30].Roller S, Dinan E, Goyal N, et al. Recipes for building an open-domain chatbot [J]. arXiv preprint arXiv:2004.13637, 2020.

[31].Mehri S, Eric M, Hakkani-Tur D. Dialoglue: A natural language understanding benchmark for task-oriented dialogue [J]. arXiv preprint arXiv:2009.13570, 2020

相关文章
|
10月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
134 1
|
10月前
|
机器学习/深度学习 人工智能 自动驾驶
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
【2月更文挑战第18天】ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
163 1
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
|
6天前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
59 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
7天前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
384 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
|
1月前
|
人工智能 编解码 自然语言处理
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
Pixtral-12B是由Pravesh Agrawal等人开发的多模态语言模型,拥有120亿参数,能处理自然图像和文档,在多模态基准测试中表现卓越。它不仅在多模态任务上表现出色,且未牺牲自然语言处理性能,采用全新视觉编码器,支持灵活图像处理。相比其他开源模型,Pixtral-12B性能优异,甚至超越更大规模模型。研究团队还发布了MM-MT-Bench基准测试,推动多模态模型评估标准化。尽管面临一些挑战,Pixtral-12B为多模态语言模型的发展提供了新动力。
45 18
|
4月前
|
人工智能 自然语言处理
米开朗基罗怎么说?谷歌DeepMind推出长上下文评估新框架
谷歌DeepMind团队提出了一种名为“米开朗基罗”(Michelangelo)的新型评估框架,通过潜在结构查询(LSQ)来全面评估大型语言模型(LLM)的长上下文理解能力。相比传统方法,米开朗基罗框架不仅评估模型的检索能力,还能更深入地验证其对上下文的理解和推理能力。
112 50
|
10月前
|
人工智能 自动驾驶 机器人
Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型
【5月更文挑战第23天】Sora模型是通用世界模拟器的里程碑,展示出在物理法则理解及多领域应用的潜力,尤其在视频生成和自动驾驶中。然而,它仍面临预测能力、模拟复杂物理现象、计算效率及评估体系的挑战。未来研究将聚焦3D模拟、智能体现和安全问题,旨在提升机器对物理世界的理解和适应性,同时应对信息失真、偏见和隐私问题。[论文链接](https://arxiv.org/abs/2405.03520)
183 2
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
|
机器学习/深度学习 存储 人工智能
首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升(1)
首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升
165 0
首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升(1)
|
机器学习/深度学习 人工智能 自然语言处理
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
184 0

热门文章

最新文章