多轮问答|学习笔记

简介: 快速学习多轮问答

开发者学堂课程【阿里小蜜中的开放语聊技术:多轮问答】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/44/detail/974


多轮问答


基于关键词识别

现在介绍最后一部分的内容,多轮问答。这里的多轮问答并不是利用模型直接给出答案的结果,而是利用问题重写的方式,结合用户的历史问题以及当前的问题,整体的看用户到底表达什么意思,再根据多轮问题重写的结果,利用文本匹配模型,做单轮的文本匹配,从知识库中得到合理回复。

所以重点在问题重写的这一部分,设计出基于关键词识别和问题重写多任务学习的训练方式。

image.png

看一下训练方式的简图,左下角是对用户历史问题做语义表示的部分。可以采用不同神经网络的结构进行,例如 RNN 或双向的 STM 等。在此语义表示的基础上做关键词识别的词语分类,识别用户问题中哪些词语是比较重要的用词,可以使用常用的分类模型,例如 CNN ,或是利用序列标注模型进行关键词与非关键词的分别标注。

然后使用用户历史问题的语义表示以及关键词抽取结果的关键词,语义信息作为整体的语音输入,用于生成问题改写的结果,也就是考虑了用户当前的问题,以及上文的历史问题,综合来看用户真正问题是什么。实际上是有两个过程,一个是关键词识别,另一个是问题改写。这里将两个任务放在一起做多任务学习的方式进行,希望利用这种方法得到效果比较好的模型结果。

这里和其他常见的问题重写模型做了简单的效果对比。针对问题改写的常见模型,最常规的 six to sequence ,以及 A4L2016 的一篇文章中有人提出 copy night 模型。

设计了一种词语的 copy 机制,把词语从原来的句子中保留下来,这种靠替代的方法最开始是用来做文本摘要,也可以属于一种文本重写的模型,主要和这两种模型做了效果对比。另外自己的模型也尝试了将关键词识别和问题重写这两个任务进行分别训练的方式。最后为了实验结果验证,提出的关键词识别和问题重写相结合的方法比 six to sequence 和 copy night 的两种模型效果都要好。

关键词识别和问题重写进行多任务学习的方式效果,也是比两个任务单独进行的方式效果好。

相关文章
|
机器学习/深度学习 计算机视觉 知识图谱
YoloV8最新改进手册——高阶篇
本专栏是讲解如何改进Yolov8的专栏。改进方法采用了最新的论文提到的方法。改进的方法包括:增加注意力机制、更换卷积、更换block、更换backbone、更换head、更换优化器等;每篇文章提供了一种到N种改进方法。 评测用的数据集是我自己标注的数据集,里面包含32种飞机。每种改进方法我都做了测评,并与官方的模型做对比。 代码和PDF版本的文章,我在验证无误后会上传到百度网盘中,方便大家下载使用。 这个专栏,求质不求量,争取尽心尽力打造精品专栏!!! 专栏链接: ''' https://blog.csdn.net/m0_47867638/category_12295903
2305 0
|
3月前
|
人工智能 JSON 开发工具
解决提示词痛点:用AI智能体自动检测矛盾、优化格式的完整方案
本文介绍了一种基于用户意图的提示词优化系统,利用多智能体架构实现自动化优化,提升少样本学习场景下的提示词质量与模型匹配度。系统通过专用智能体协同工作,识别并修复逻辑矛盾、格式不清及示例不一致等问题,结合Pydantic结构化数据模型与OpenAI评估框架,实现高效、可扩展的提示词优化流程。该方案显著减少了人工干预,增强了系统效率与输出一致性,适用于复杂研究任务与深度AI应用。
375 0
解决提示词痛点:用AI智能体自动检测矛盾、优化格式的完整方案
|
人工智能 算法 Java
AI:互联网程序设计竞赛之蓝桥杯大赛的简介、奖项设置、大赛内容以及蓝桥杯与ACM(ICPC)的四个维度对比之详细攻略
AI:互联网程序设计竞赛之蓝桥杯大赛的简介、奖项设置、大赛内容以及蓝桥杯与ACM(ICPC)的四个维度对比之详细攻略
AI:互联网程序设计竞赛之蓝桥杯大赛的简介、奖项设置、大赛内容以及蓝桥杯与ACM(ICPC)的四个维度对比之详细攻略
|
6月前
|
存储 弹性计算 测试技术
10分钟私有部署QwQ-32B模型,像购买Ecs实例一样快捷
虽然阿里云提供了基于 IaaS 部署 QwQ-32B 模型的方式,但传统的基于IaaS的部署方式需要用户自行配置环境、安装依赖、优化硬件资源,并解决复杂的网络与存储问题,整个流程不仅耗时耗力,还容易因操作失误导致各种不可预见的问题。 因此,阿里云计算巢提供了基于ECS镜像与VLLM的大模型一键部署方案,通过ECS镜像打包标准环境,通过Ros模版实现云资源与大模型的一键部署,用户无需关心模型部署运行的标准环境与底层云资源编排,10分钟即可部署使用QwQ-32B模型,15分钟即可部署使用Deepseek-R1-70B模型。
|
机器学习/深度学习 自然语言处理 达摩院
长文本口语语义理解技术系列①:段落分割实践
数智化浪潮下,越来越多的企业开始将现代信息网络作为数据资源的主要载体,并通过网络通信技术进行数据传输;网络作为主要的信息交流和分享的方式,海量不同源的网络信息,使得企业与个人消化信息的成本越来越高。音视频数据作为其中重要的信息来源之一,也随着远程视频会议、在线课堂、直播教学、电话销售等领域有了爆炸性的增长。
3626 0
长文本口语语义理解技术系列①:段落分割实践
|
自然语言处理 开发者
通用文本向量模型全新升级至V3,开通百炼速来体验~~
阿里云新推出通用文本向量模型text-embedding-v3,基于LLM,支持50+语言,包括新增的意大利语等。模型升级亮点:8K长文本支持、可变向量维度、Sparse向量及不分Query/Document类型。现在提供50万免费tokens,有效期180天,计费0.0007元/1000 tokens。体验请访问[阿里云百炼官网](https://bailian.console.aliyun.com/?spm=a2c6h.13046898.publish-article.6.63066ffaL32qHM)
5789 0
|
9月前
|
安全 Serverless API
多模态数据信息提取解决方案评测
该方案展示了如何利用阿里云的多模态大模型服务进行文本、图片和文档的信息提取。通过函数计算(FC)调用百炼模型服务API,实现信息提取功能。具体步骤包括: 1. **开通百炼模型服务**:获取API Key,确保可以调用大模型。 2. **部署应用**:使用函数计算部署应用模板,配置参数并创建环境。 3. **访问示例应用**:通过提供的域名访问示例网站,测试信息提取功能。 4. **清理资源**:删除函数计算和OSS Bucket等资源,避免产生额外费用。 此方案具备多模态推理、易于扩展、灵活调用模式和便捷安全的云产品接入等优点,适用于多种业务需求。
355 28
|
11月前
|
SQL 自然语言处理 数据库
XiYan-SQL:一种多生成器集成的Text-to-SQL框架
XiYan-SQL 是一种创新的多生成器集成Text-to-SQL框架,通过M-Schema增强模型对数据库结构的理解,结合ICL与SFT方法提升SQL生成质量和多样性,经实验证明在多个数据集上表现优异,特别是在Spider和SQL-Eval上取得了领先成绩。
1871 7
|
存储 自然语言处理 NoSQL
Text2Cypher:大语言模型驱动的图查询生成
本文的主题是我们认为这个 LLM+ 领域最唾手可得、最容易摘取的果实,Text2Cypher:自然语言生成图查询。输入自然语言,生成相对应的图查询语句,甚至可以直接返回该语句执行结果。
714 0
|
SQL 数据采集 机器学习/深度学习
【转载】CDC——如何有效的进行公司名称匹配
【转载】CDC——如何有效的进行公司名称匹配
286 0