如何向大模型注入知识?达摩院通义对话模型SPACE系列探索(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 如何向大模型注入知识?达摩院通义对话模型SPACE系列探索

3.4. SPACE-2 结果

SPACE-2 在面向对话理解的榜单 DialoGLUE 上(意图识别、填槽、对话跟踪)全量测试和小样本测试总分均为第一,其中在全量测试上,SPACE-2 相比之前的 SOTA 提升 1.1%,在小样本测试上,SPACE-2 相比之前的 SOTA 提升 3.41,由此可以证明开放集知识对于对话理解的增益。

图 20 SPACE-2 注入了对话理解知识,在对话理解榜单 DialoGLUE 取得 full-data 和 few-shot 双榜单第一名

4. SPACE-3: 从单模块建模到一体化建模

面向单模块的预训练模型存在几个问题:

  1. 首先,模型的泛化性有限,无法很好的泛化到其他对话任务中,比如面向对话理解的模型很难再对话策略上有很好的效果;
  2. 对话任务具有流程型和时序性,理解 -> 策略 -> 生成是有先后顺序及相辅相成的,同时建模多个任务将能更充分的挖掘数据特征;
  3. 不同任务的标签知识如果能够同时以半监督的方式注入到预训练模型中 ,标注信息的增多,对于模型的优化也更有帮助。


为了克服这些问题,所以我们提出了 SPACE-3,希望将对话理解、对话策略、对话生成都统一到一个预训练对话模型中。

4.1. 一体化模型

我们换个角度来看人机对话,首先多轮对话是流动的,是对话双方不停地进行交互,但之前的预训练对话模型都是从单侧(用户侧 or 系统侧)进行建模,没有考虑他们之间相互的影响。另外,语义树是对用户侧的语言(utterance)进行理解的,DA 是对系统侧的语言(response)进行理解的,那么就可以将理解知识和策略知识进行双侧理解统一建模。

图 21 换个角度看人机对话

基于这个思路,我们希望能够模拟人类对话的思考路径,通过三个 Decoder 依次做理解、策略和生成,中间的结果可以用在各类对话下游任务上。在模型技术选型上,我们采取 UniLM 作为 backbone,将 1 Encoder + 1 Decoder 扩展为 1 Encoder + 3 Decoder 的结构,其中 Dialog Encoder 作为基础编码器通过 MLM loss 完成基础语言理解,而三个 Decoder 各司其职,Understanding Decoder 通过半监督对比学习进行对话理解,Policy Deocder 通过语义策略正则 loss 进行对话策略建模,最后 Response Decoder 通过传统的生成 loss 进行对话生成。

图 22 SPACE-3 模型架构

4.2. 双侧理解建模

策略 loss 的设计体现了我们对双侧理解的思想,首先在用户侧时刻,根据上下文和用户 utterance,经过 Policy Decoder 的预测的结果,和直接利用 Understanding Decoder 对下一轮 response 理解的结果,二者具有一致性。比如在下面的例子中,当模型接受 U1 + R1 + U2 为 context 的输入时 Policy Decoder 模块的结果,需要与 U1 + R1 + U2 + R2 为 context 的输入时 Understanding Decoder 模块的结果进行一致性约束,来引导模型对策略进行建模。

图 23 策略 LOSS 建模示例

同样的,在用户侧时刻,根据上下文和系统 response,经过 Policy Decoder 的预测的结果,和直接利用 Understanding Decoder 对用户 utterance 理解的结果,二者具有一致性。当模型接受 U1 + R1 + U2 + R2 为 context 的输入时 Policy Decoder 模块的结果,需要与 U1 + R1 + U2 + R2 + U3 为 context 的输入时 Understanding Decoder 模块的结果进行一致性约束,来引导模型对策略进行建模。

图 24 策略 LOSS 建模示例

4.3. SPACE-3 结果

最后,我们同时在对话理解任务、对话策略任务和对话生成任务上同时评测了 SPACE-3 的效果,在包含理解、策略和生成的 8 个数据集的综合评价上,取得当前最好效果。

图 25 SPACE-3 模型结果

5. SPACE-1/2/3 系列模型总结

这一年多来,我们通过提出半监督预训练新范式,向预训练对话模型中注入人类标注知识,打造了 SPACE 系列模型,共在 11 个国际对话数据集取得 SOTA,并且三个工作分别侧重对话策略、对话理解及统一建模。相关的论文已经被顶级会议接收。其中,SPACE-1 融合对话策略知识,被 AAAI 2020 录用;SPACE-2 融合对话理解知识,被 COLING 2022 录用;SPACE-3 集理解、策略、生成一体,被 SIGIR 2022 录用。

图 26 SPACE 1/2/3 系列模型

6. 未来展望

拓展更多任务:半监督预训练作为一个通用的预训练技术, 不仅可以用于对话任务,对于更多的 NLP 任务, 甚至其他模态的任务都有应用的潜力;

融入更多知识:本文中我们对分类标注知识和树形语义知识做了探索,除此之外还有很多其他知识形态,如何进行更好的形式化表示,统一地融入到一个预训练模型中也是一个开放问题;

设计更好算法:目前的探索是基于一致性正则化的半监督预训练方案,但整个半监督领域还有 self-taught, co-training, deep generative modeling 等诸多方法,如何综合利用或设计更优的算法是一个重要研究课题;

放松数据约束:半监督学习要求标注数据和无标数据具有类似的数据分布,这一要求在真实场景中具有局限性,如何设计泛化性更强的半监督学习方法,放松对于无标数据分布的假设,是未来的一个发展方向。


特别鸣谢

灵骏为本项目提供智能算力支持,显著性加速了 SPACE 大规模预训练过程。灵骏是阿里云自主研发的新一代智能计算服务,以软硬件一体的系统性创新优化,使端到端计算效率得到飞跃式升级。支持自然语言处理、图形图像识别、搜索广告推荐等多种应用场景,具备高性能、高效率、高资源利用率等核心优势,可为大模型等前沿 AI 技术提供高拓展可预期的计算服务。

参考文献
[1] Devlin J, Chang M W, Lee K, et al.  BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019.[2] Brown T, Mann B, Ryder N, et al. Language Models are Few-Shot Learners. NeurIPS 2020.[3] Raffel et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.  JMLR 2020.[4] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need.  NeurIPS 2017.[5] Henderson M, Casanueva I, Mrkšić N, et al. Convert: Efficient and accurate conversational representations from transformers. EMNLP-findings 2019.[6] Wu C S, Hoi S, Socher R, et al. TOD-BERT: pre-trained natural language understanding for task-oriented dialogue. EMNLP 2020.[7] Zihang Jiang, Weihao Yu, Daquan Zhou, et al. ConvBERT: Improving BERT with Span-based Dynamic Convolution. NeurIPS 2020.[8] Zhang Y, Sun S, Galley M, et al. DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation. ACL system demonstration 2020.[9] Adiwardana D, Luong M T, So D R, et al. Towards a human-like open-domain chatbot. arXiv preprint arXiv:2001.09977, 2020.[10] Roller S, Dinan E, Goyal N, et al. Recipes for building an open-domain chatbot. arXiv preprint arXiv:2004.13637, 2020.[11] Xiaojin Jerry Zhu. Semi-supervised learning literature survey. 2005.[12] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks. NeurIPS 2021.[13] He W, Dai Y, Zheng Y, et al. SPACE: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection. AAAI 2022.[14] He W, Dai Y, Hui B, et al. SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for Task-Oriented Dialog Understanding. COLING 2022.[15] He W, Dai Y, Yang M, SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation. SIGIR 2022.[16] Xu H, Zhengyan Z, Ning D, et al. Pre-Trained Models: Past, Present and Future [J]. arXiv preprint arXiv:2106.07139, 2021.

相关文章
|
7天前
|
编解码 Cloud Native 算法
通义万相:视觉生成大模型再进化
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
|
4月前
|
人工智能 自动驾驶 云栖大会
大模型赋能智能座舱,NVIDIA 深度适配通义千问大模型
9月20日杭州云栖大会上, NVIDIA DRIVE Orin系统级芯片实现了与阿里云通义千问多模态大模型Qwen2-VL的深度适配。阿里云、斑马智行联合NVIDIA英伟达推出舱驾融合大模型解决方案,基于通义大模型开发“能听会看”的智能座舱助理,让车内人员通过语音交流就能操作座舱内的各类应用,享受极致丰富的交互体验。
286 14
|
16天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
|
29天前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
16天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
4月前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
1月前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
260 8
|
2月前
|
人工智能 开发者
再次获奖!世界互联网大会把荣誉给了通义大模型
再次获奖!世界互联网大会把荣誉给了通义大模型
57 11
|
2月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2:通义千问大模型的知识蒸馏实践
DistilQwen2 是基于 Qwen2大模型,通过知识蒸馏进行指令遵循效果增强的、参数较小的语言模型。本文将介绍DistilQwen2 的技术原理、效果评测,以及DistilQwen2 在阿里云人工智能平台 PAI 上的使用方法,和在各开源社区的下载使用教程。
|
3月前
|
自然语言处理 Java API
Spring Boot 接入大模型实战:通义千问赋能智能应用快速构建
【10月更文挑战第23天】在人工智能(AI)技术飞速发展的今天,大模型如通义千问(阿里云推出的生成式对话引擎)等已成为推动智能应用创新的重要力量。然而,对于许多开发者而言,如何高效、便捷地接入这些大模型并构建出功能丰富的智能应用仍是一个挑战。
402 6

热门文章

最新文章