高级能力和算法效果优化(二)| 学习笔记

简介: 快速学习高级能力和算法效果优化。

开发者学堂课程【3节课带你走进云小蜜产品 :高级能力和算法效果优化(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/739/detail/13117


高级能力和算法效果优化(二)

三、机器人训练

机器人训练为了更好的保障机器人的理解水平。引入机器学习算法,首先需要有大量的标注数据来让模型进行学习,模型如果没有数据是无法进行学习的。如果数据量标注每条意图指标都在10条左右,比较适合用系统内置的模型识别。如果意图标注的样本量比较多,比如达到了百级别或者更多,就可以直接训练大小本的监督学习模型,这样意图识别效果也会更加的好一些。

image.png

机器人训练目前包括两条链路,第一条链路用户标注部分少量的数据依赖于平台预置通用fsl意图识别模型进行话术的理解泛化,发布到机器人中即刻生效,第二条链路是当标注的数据量比较大,比较充分的时候就可以进行深度训练,用户可以自己在平台上进行模型的创建,模型的训练,模型效果评测,对结果进行分析,如果发现模型的效果,要优于旧版模型,可以进行模型的部署和更新,第二条链路对数据量有比较大的要求,要求意图话术平均达到一百条左右,但是效果也是有保障的,一般交付的项目会走这条链路,通过标注大量的数据能把模型效果做到90%以上。

1、机器人训练-数据筛选标注

数据源提取:创建训练任务、选择数据来源、定义提取维度。

数据预处理(自动):去重、相似度计算。

聚类(自动):聚类。

摘要(自动):摘要。

数据标注:添加到现有知识点、新建知识点。

完结(自动):自动回流、只是生效。

(1)数据闭环:充分利用真实的线上反馈数据进行智能训练及评测,优化效果真实可靠、可感知。

(2)智能辅助处理:通过数据清洗、聚类、推荐等智能辅助手段,提升训练的科学合理性。

(3)线上化一体操作:无线下流程,保障数据安全及数据准确性。

2、演示数据筛选标注流程

(1)点击机器人训练页面,新建任务,任务类型,意图拓展主要用于多轮对话机器人,意图话术的拓展,云小蜜正向循环主要用于 feq 问答机器人知识点的标注,首先进行数据类型的筛选,是否有答案还是低于某个阈值,如果最终系统给出结果,发现置信度很低,不太能确定是否是准确的,可以推荐出来,再进行一次标注。除此以外,还可以进行时间范围的筛选,点击确定,它自动会在日志里面把选定的时间段拉出来做预处理,包括像预算、聚类、意图以及知识点的推荐等。

image.png

(2)点击待处理任务,可以看到任务,云小蜜正向循环是知识点的标注,意图拓展是意图的标注。

image.png

(3)点击云小蜜正向循环详情,预处理、聚类、摘要是平台会自动化操作,日志拉出后,用户可以直接进行标注,可以选择机器人对应的知识点,可以选或者自己创建,确定,显示已标注。

image.png

点击下一步,把标完的话术对应的发布到机器人的知识库里面,相当于机器人的知识点标注。

(3)点击意图拓展详情,意图会被推荐,用户只要确定未解决问法是不是目标意图,是就是通过,反之则不通过。

image.png

(4)标注完点击下一步,发布到机器人上生效,进行回流和完结状态。

3、小样本意图识别

(1)冷启动:标注回流样本比较少,通常不足10条,无法使用监督模型,但仍然希望有较好的话术泛化能力。

(2)方案:

平台积累了万级对话意图数据,借助小样本学习深度学习算法,训练行业意图识别 Meta Model。

每个机器人,收到在线请求时,Meta Model 会利用机器人配置话术进行适配得到机器人模型,快速生效。

能够对几条意图话术进行归纳学习出意图表达的语义信息,用户 query 不仅仅是与配置话术进行匹配,而是能够与整个意图所表达的语义信息进行匹配。学出的效果更加精准。

(3)算法创新:

《Induction Networks for Few-Shot Text Classification》EMNLP 2019

学习意图整体的语义信息,这里采用胶囊网络方法,该工作已在 EMNLP2019上发表。

《Dynarmic Memory Induction Networks for Few-Shot Text Classification》ACL 2020

为了解决FSL遗忘的问题引入 Memory 机制,该工作已在 ACL 2020进行发表。

由此可以看出,在小样本学习这一领域在学术界是非常前沿的一个水平。

(1)效果提升:构建了通用、金融、政务行业的 FSL 意图识别模型,对比业界常用的 WordAvg 方法效果提升10%以上。

4、大样本意图识别

(1)业务情况:对于要交付上线的项目,一般都要求 Turn Acc 做到90%以上,需要标注大量样本训练深度学习模型才能保证效果。

image.png

(2)如何减少标注量?

(3)迁移学习

通用模型: StructBert 中文预训练语言模型,比 Google Bert 好1个点左右。

行业模型:抓取沉淀千万级行业句子、百万级行业文档,训练 StructBert 行业语言模型,在下游的意图识别、知识点匹配等任务上都有显著效果提升。

企业模型: 利用企业标注数据在行业模型上进行 finetune 训练,会有百分之五十样本量的节省。

(5)私有云已支持完整的模型训练、评测、发布链路,公有云已在计划中,敬请期待。

 

四、总结

本次课程主要讲解三块内容,第一块系统内置意图、实体,系统内置了大量的实体,有效果保障,并且使用的成本非常低,提倡创建新的机器人、新的业务时首先看内置意图是否满足业务需求,如果不满足的情况下再进行自定义。

第二块是意图话术高级配置方式 LGF,它是一种高效知识归纳的方式,它能大大减少意图话术的数量。

第三块是机器人训练,当对机器人效果要求比较高时并且可以进行一定量的数据标注,建议用模型,进一步细分成小样本模型和大样本模型。

相关实践学习
阿里巴巴智能语音交互技术与应用
智能语音交互,是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等。 本课程主要讲解智能语音相关技术,包括语音识别、人机交互、语音合成等。  
相关文章
|
3天前
|
存储 缓存 算法
Python中常用的数据结构与算法优化技巧指南
Python是一种强大而灵活的编程语言,它提供了丰富的数据结构和算法库,但是在处理大规模数据或者需要高效运行的情况下,需要考虑一些优化技巧。本文将介绍一些Python中常用的数据结构与算法优化技巧,并附带代码实例,帮助你更好地理解和运用。
|
4天前
|
算法
基于GA遗传优化的混合发电系统优化配置算法matlab仿真
**摘要:** 该研究利用遗传算法(GA)对混合发电系统进行优化配置,旨在最小化风能、太阳能及电池储能的成本并提升系统性能。MATLAB 2022a用于实现这一算法。仿真结果展示了一系列图表,包括总成本随代数变化、最佳适应度随代数变化,以及不同数据的分布情况,如负荷、风速、太阳辐射、弃电、缺电和电池状态等。此外,代码示例展示了如何运用GA求解,并绘制了发电单元的功率输出和年变化。该系统原理基于GA的自然选择和遗传原理,通过染色体编码、初始种群生成、适应度函数、选择、交叉和变异操作来寻找最优容量配置,以平衡成本、效率和可靠性。
|
6天前
|
机器学习/深度学习 算法
基于鲸鱼优化的knn分类特征选择算法matlab仿真
**基于WOA的KNN特征选择算法摘要** 该研究提出了一种融合鲸鱼优化算法(WOA)与K近邻(KNN)分类器的特征选择方法,旨在提升KNN的分类精度。在MATLAB2022a中实现,WOA负责优化特征子集,通过模拟鲸鱼捕食行为的螺旋式和包围策略搜索最佳特征。KNN则用于评估特征子集的性能。算法流程包括WOA参数初始化、特征二进制编码、适应度函数定义(以分类准确率为基准)、WOA迭代搜索及最优解输出。该方法有效地结合了启发式搜索与机器学习,优化特征选择,提高分类性能。
|
1天前
|
机器学习/深度学习 存储 算法
基于SFLA算法的神经网络优化matlab仿真
**摘要:** 使用MATLAB2022a,基于SFLA算法优化神经网络,降低训练误差。程序创建12个神经元的前馈网络,训练后计算性能。SFLA算法寻找最优权重和偏置,更新网络并展示训练与测试集的预测效果,以及误差对比。SFLA融合蛙跳与遗传算法,通过迭代和局部全局搜索改善网络性能。通过调整算法参数和与其他优化算法结合,可进一步提升模型预测精度。
|
8天前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
1天前
|
算法 vr&ar
技术好文共享:遗传算法解决函数优化
技术好文共享:遗传算法解决函数优化
|
1天前
|
机器学习/深度学习 算法 大数据
操作系统调度算法的演变与优化
在计算机科学领域中,操作系统的调度算法是核心的研究课题之一。本文深入探讨了操作系统调度算法的发展历程、当前挑战以及未来趋势。通过引用最新的科研数据和实验证据,本文旨在揭示调度算法如何适应现代计算需求的变化。我们将从理论到实践,详细分析不同调度算法的性能表现,并讨论如何利用这些算法来提升系统的整体效率和响应速度。
2 0
|
2天前
|
算法 调度
【完全复现】基于改进粒子群算法的微电网多目标优化调度
该文档描述了一个使用改进粒子群算法实现的微电网多目标优化调度的Matlab程序。该模型旨在最小化运行成本和环境保护成本,将多目标问题通过权值转换为单目标问题解决。程序中定义了决策变量,如柴油发电机、微型燃气轮机、联络线和储能的输出,并使用全局变量处理电负荷、风力和光伏功率等数据。算法参数包括最大迭代次数和种群大小。代码调用了`PSOFUN`函数来执行优化计算,并展示了优化结果的图表。
|
4天前
|
消息中间件 存储 缓存
Java中的数据结构与算法优化攻略
Java中的数据结构与算法优化攻略
|
8天前
|
算法
基于蝗虫优化的KNN分类特征选择算法的matlab仿真
摘要: - 功能:使用蝗虫优化算法增强KNN分类器的特征选择,提高分类准确性 - 软件版本:MATLAB2022a - 核心算法:通过GOA选择KNN的最优特征以改善性能 - 算法原理: - KNN基于最近邻原则进行分类 - 特征选择能去除冗余,提高效率 - GOA模仿蝗虫行为寻找最佳特征子集,以最大化KNN的验证集准确率 - 运行流程:初始化、评估、更新,直到达到停止标准,输出最佳特征组合