开发者学堂课程【3节课走进云小蜜产品:课时3 :高级能力和算法效果优化】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/298/detail/3497
课时3 :高级能力和算法效果优化(三)
四、机器人训练流程
机器人训练流程如下:
机器人训练包括两条链路,第一条链路是用户标注部分少量数据,依赖于平台预制的小样本学习识别模型,进行话术的理解泛化。能够快速生效,标注完成,发布到机器人就能够即刻生效。另外一种,当标注数据量较大,较为充分时,就可以进行深度训练的链路。用户可以自己在平台上进行模型的创建、训练、评测。评测完成之后对结果进行分析,如果发现模型效果优于旧版模型,还可以进行模型的部署更新。第二条链路对数据量有较大要求,要求意图要达到100条左右,效果更有保障,要交付的项目都会进行该链路,通过标注大量数据,将模型效果做到90%以上。机器人训练当中最重要的阶段是数据筛选标注。筛选标注流程,形成完整闭环:
会充分利用线上真实的数据,进行智能机器人的训练和评测,使得优化的效果更加真实可靠,并且在数据处理链路当中加上许多自动化数据处理、摘要等辅助手段,减少用户的标注成本,并且使机器人的效果得到保障。用户做了更少的动作,得到更好的效果,整个操作链路是线上化一体操作,没有线下流程,可以充分保障数据的安全以及数据的准确性。演示数据筛选标注的流程:
进入到具体机器人当中,有机器人训练,点击新建任务,存在两种不同类型,一种是意图拓展,一种是云小蜜:
意图拓展主要用于多轮对话机器人当中的意图话术拓展,云小蜜正向循环主要用于feq 问答机器人当中的知识点标注。相当于意图拓展进行意图的标注,正向循环进行知识点的标注。首先,可以进行数据类型的筛选,筛选包括是否有答案或低于某个域值,如果最终系统给出结果时,发现置信度较低,不能确定是否准确,就能将其推荐出来,进行再一次标注,除此之外还能够进行时间范围的筛选:
例如起始是8月1日,结束是8月13日,点击确定之后就会自动在日志当中将该时间段的日志取出,取出之后会自动进行预处理,包括相似度计算,意图以及知识点的推荐等。以下是已经创建好的任务:
正向循环是知识点的标注,意图拓展是意图的标注。点击之后,预处理、相似度计算、摘要平台会自动化进行操作。当日志取出之后,在此处用户可以直接进行标注:
可以进行选择,也可以进行行行创建。创建完成知识点,可以将问题对应标注。标注完成之后就会显示已标注:
标注完成之后,点击下一步,自动将对应的话术发布到机器人知识库当中。相当于是fq 问答机器人的知识点标注。意图话术拓展标注流程较为简单。推荐完成之后,就会将意图推荐,用户只需要标注是否属于该意图。如果通过就证明属于该意图,如果不通过就证明不属于该意图。标注完成之后,就会有下一步操作,没有全部标注完成,也可以发布到机器人当中。点击确定就能够发布到机器人就会生效。标完之后会进入到回流和完结的状态。话术就进行到机器人上了,以上就完成了简单的话术标注以及快速生效流程。
完成了数据筛选标注之后,剩下的流程就是要将数据送进模型当中。目前会根据标注回流样本的数量,采取两种不同的方案,如果标注回流样本较少,不足10条,无法使用监督模型的,但同时为了保持较好的话术泛化能力,设计开发了小样本识别模型。方案是利用平台积累的万级对话数据,借助小样本学习训练的行业意图,识别原模型。对于每个机器人,当收到三线请求时,原模型会利用机器人配置话术进行适配,得到新的机器人模型,能够对每个机器人进行快速生效,该方法能够对几条意图话术进行学习归纳,归纳出该意图所表达的语义信息。用户 corry 不仅与配置话术进行匹配,而且能够与整个意图所表达的语义信息进行匹配,学习完成的效果会更加精准。学习意图的整体的语音信息,采用了胶囊网络的方法,该工作在 emp 2019上发表,为了解决这个 Few short Learning 当中存在的遗忘问题引用了 memory 机制,该工作在 AC2020 进行了发表。由此得出该工作在小样本学习领域处于非常前沿的水平。
实际业务落地当中构建了通用金融政务行业的 few shot learning 意图识别模型。目前构造的模型比业界常用的方法提升了十个以上的点,提升较为明显。
对于要交付上线的项目,一般要求单轮意图理解的准确率做到90%以上,需要标注大量的训练样本,训练深度学习模型才能够保障业务效果,实际将模型训练发布流程在线化了,包括如下几步,第1步就是测试级的构建,第2步是训练级的收集管理,第3步是模型训练的测试,第4步是模型评测结果的分析,评测结果分析如果效果达到要求,就会模型发布,如果没有达到要求,要做模型效果的优化,模型效果优化也存在一些辅助功能,例如重度检测。离群样本的提示。在链路基础之上可以较好保证业务效果,但是存在一个美中不足,需要标注大量数据。为了让数据量减少,引入了迁移学习的方法,将模型分为三层,第一层是 Struct burt 的中文育训练员模型,该模型相较于谷歌目前发布的谷歌 burt 有一个点左右的提升。在通用模型基础之上,训练的行业模型通过抓取沉淀了千万级行业句子文档,训练 Struct burt 行业原模型。目前在下游的意图识别和知识点匹配任务上,有较明显的效果提升,企业模型层面,利用企业标注数据,在行业模型上进行反停与训练,会有50%的样板量节省,目前私有云已经支持了上述的完整模型训练评测发布链路,公有云目前也计划支持。
五、总结
本课程主要介绍了三部分内容。第一部分是系统内置的意图和实体,系统内置了大量的意图和实体,使用内置的意图和实体,有效果保障的,成本非常低,因此提倡用户创建新机器人,有新业务时,首先查看内置意图当中是否满足业务需求,在不满足的情况下再进行自定义。第二部分是意图话术的高级配置方式 LGF,LGF 是高效的知识归纳方式,能够大大减少花费的配置数量。第三部分是机器人训练部分,当用户对机器人效果要求较高的情况下,并且可以进行一定量的数据标注,此时建议上模型,模型进一步细分为小样本模型和大样本模型。