挑战解法-阿里小蜜技术解析(一)|学习笔记

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 快速学习挑战解法-阿里小蜜技术解析

开发者学堂课程【阿里小蜜中的机器阅读技术:挑战解法-阿里小蜜技术解析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/43/detail/966


挑战解法-阿里小蜜技术解析(一)


内容介绍:

一、店小蜜活动规则中的解法

二、解决方法和实践小结

三、领域覆盖


一、店小蜜活动规则中的解法

首先基于领域扩展困难以及数据标注收集困难问题,如下图是店小蜜活动规则中的解法:

多任务—店小蜜活动规则

image.png

之前提到最开始是把店小蜜作为一个回答用户关于官方活动的问题,对于每一个在淘宝平台上开店的商家来说,他们有自己的一些活动,那其和之前的场景都是一种规则性的阅读理解场景,但是其区别在于它面向了多个行业同样也是高频变动的。在此处,把机械的能力复用在店小蜜活动专区的一个场景中,可以发现通过左边对于活动的一些结构化与非结构化规则性的配置,右边机械阅读会直接抓取相关的内容作为回复。在此过程中为了达到快速的能力复用以及数据标注的介绍。

多任务——领域数据结构复用,减少数据标准

image.png

在此利用了多种多样的数据,包括了点击日志和人工知识去丰富不同的问法信息,以及对问题和答案的语义做一定的关联性建模,但这些数据相比机器阅读任务本身会更加容易收集,可以看到如上右图,在整个机器阅读理解 Benchmark 数据集上面,通过其他任务的数据引入,准确率从83提升到95,其背后的一个模型原理是基于深度神经网络的模型迁移原理,

如下图:

image.png

对于一个做图像分类或者识别的网络来说,它是有一个多层的 CNN 结构来堆叠,最终完成一个具体的任务,它从底向上,也就是说从最初的输入即靠近输入的这一端到输出的那一端,它的不同层次会关注不同的特征,比如最底层它会关注一些边缘、颜色,在更上层它会有一些简单的一些形状,乃至去组合成更复杂的一些物体,再把这些物体结合出来,作为整个场景的分类。

在14年 ins 有一篇文章提出在整个模型的不同层次中具有不同的特征迁移能力,简而言之就是其底层的特征即使是面对不同的任务也可以快速的复用起来,任务a上用到的模型的底层特征可以直接复用在任务 b 上,不需要做额外的微调,而越接近于上层,即输出层,越与这个任务有关,越需要在新的任务上去做一定的调整优化。

基于这种神经网络的多层可迁移性,小蜜在文本匹配上也探索了相关的迁移学习任务,这个工作是发表在2017年 wsdm 上,

如下图:

小蜜在文本匹配迁移学习的探索

image.png

去做一个跨领域的短文本匹配的迁移学习,其中主要分为两种领域,原领域和目标领域,原领域是一个已经具有了大量标注数据的匹配场景,而目标领域仅仅具有少量的数据标注,在上图左边描述了一种最简单的共享结构,就是原领域和目标领域都去共享网络中的一部分,然后通过原领域的数据去整个训练的网络,再同时去预测在原领域中和目标领域中分别两个领域的匹配结果。

在这个基础上面,又引入了更加复杂的结构,像上图右边所示,原领域本身和目标领域有一些领域的共通性,这些共通的知识可以作为一些通用的内容抽取出来,在这里面我们是使用了一些共享的结构 shared、neural network,即中间灰色的这一层。在左边是其领域之间独有的、特有的一些领域知识,此处会利用一些独立的参数、不会共享的层次来对其做建模。

当这种领域参数共享以及不共享同时存在于整个框架中时,其实就做出了一个领域的迁移,它的迁移会针对于领域之间的相似性知识而同时去建模领域之间不同的知识来对整个任务去做一个互相的借鉴学习,达到了在目标领域这种少数场景里更好的学习效果,具体效果可参照相关的论文。

再回顾机器阅读本身,此处把机器阅读整个做了一个层次的抽象,如下图:

利用跨领域/跨任务数据共同学习

image.png

最下面一层就是熟知的 Embedding Layer ,它把文章和问题中的单词字符映射成了不同的高维向量,再上一层就是 Encode Layer 去对这些向量/序列去做一个更进一步的编码,基于这些编码,要去做attention,即黄色的这一层,再去基于 attention 去最终建模和预测答案的起始位置,即 Model Layer 、Ouput Layer,基于机器阅读的多层的模型结构,复用了前面提到的神经网络的层次迁移性,在最底层的 Embedding Layer 上引入了 Chatlog, 即用户的问答日志去做一个共同的学习。

这块数据的数据量非常大,可以认为是一个海量的规模。在上层的编码引入了 QQ Pair ,即用户的问题和知识点标题的一些匹配信息,以及用户在问答过程中的对于推荐问题的一些点击信息,它也有非常大量的数据。再之上利用了知识库中人工编辑的问题和知识内容之间的 QA Match之间的语义关系数据,它相对来说没有那么多,但是对于整个电小蜜的体量来说,因为已经有非常多的商家在通过店小蜜提供服务,所以说数据规模也还是比较大中等的。再到上面可能仅仅只需要针对 mrc 本身这个任务来提供一个少量的标注,即可以达到一个比较好的效果。

除了多领域多任务的学习,接下来是另一个挑战,即当文档过多是怎么去处理的,此处展示的是一个关于政务办事问答的的应用场景,如下图:

多文档-政务办事问答

image.png

如上图可看到其中主要是关于政府去做一些具体的事项、办理相关的一些材料文件时需要用到的一些内容条款它是一种条款性。比如上图是一个关于养犬许可服务指南相关的规定介绍,用户可能会问“这个在哪里可以办理?需要多长时间?我需要去准备什么样的材料?”它的一个典型特点就是民众对于政务往往有非常多需要办理的事务,不单单是个人,可能还有一些公司级的,就导致了对于每个省来说,可能需要有百万级办事的文档库规模来去支撑整体的政务办事问答。那在此整体做了一个 Pipeline 链路,如下图:

工业系统——完整的文答 Pipeline 链路

image.png

用户的问题首先会去提取一些相关的关键词,比如图上是关于3M 的

一个活动的优惠,里面核心的一些活动词或者办事的事项名称会提取出来,在文档库里做一个大规模召回,召回之后的话针对召回的文档再去做一个粗排,粗排出来的结果会基于机器阅读模型做一个精细化的答案提取,再把提取到的答案与用户的完全问题再做一个精细化排序,来返回最合适的答案。

在其中它与传统的 pipeline 式的结构稍微的区别是在于把整体的文章排序,段落排序,其最终的答案排序做了一个联合学习。这个工作也是发表在 AAAI 2018 鼎会上的一篇论文,如下图:

层叠式阅读理解过程

image.png

上图可看到前置的检索整体缩短了阅读的范围,同时会带着问题去在缩小范围后的每个候选段中阅读,去寻找相关的答案,但是不同的段落独立寻找之后,又会去把整体不同段落里面的答案统一拿出来做一个整体的可信度对比,如此可以防止在过长或者过短段落上答案最终得到的分值,分布不一致导致的不可比问题,最终综合考虑选取全局的最优结果。可以看到上图左边黄色的部分在不同的模型上,所有的参数都是共享的,共享去学习,如此不会引发前一个步骤出现了错误而累积导致影响下一步的环节。接下来是整个流程在业务数据上的表现,如下图:

性能与准确率表现

image.png

可以看到折线图主要是代表了一个模型的响应时间,柱状图是表示模型在数据集上的一个准确程度。用的是F1指标,图中随着文章长度的增长,即横轴部分,改进模型实现这一块整个的响应时间仅仅做了少量的一个增加,而原始的虚线会成倍的去增长,同时,在这个包含了这个检索式的模型之中,F1 也会随着文章长度的增加而仅仅做一些少量的衰减。而原始没有检测的文章、文章检索的模型会表现出一个很大的性能损失。同时前面提到有一个整个的答案后排序的过程,

融合后置排序进一步增强可控

image.png

在此也同样用到了 Multi-Task Training,即多任务学习的能力,同时我们还利用了 Wide & Deep Ensemble 整个去做一个引 example,Deep 端是上述提到的各种各样的一些深度学习模型,Wide 端可以结合一些业务上面需要的可解释性比较好的特征,比如问题的类型、问题答案的长度、之间的一些相似度、以及外部的一些语义知识和意图知识去做一个整体的引 example。在 Wide & Deep 结合的框架下面,通过引入额外的答案后排序阶段,可以看到在部分活动场景能减少将近60%的错误答案,同时可以保留超过90%的正确回复来进一步提高模型的准确率。

相关文章
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
93 10
|
3天前
|
自然语言处理 文字识别 数据处理
多模态文件信息抽取:技术解析与实践评测!
在大数据和人工智能时代,企业和开发者面临的挑战是如何高效处理多模态数据(文本、图像、音频、视频)以快速提取有价值信息。传统方法效率低下,难以满足现代需求。本文将深度评测阿里云的多模态文件信息抽取解决方案,涵盖部署、应用、功能与性能,揭示其在复杂数据处理中的潜力。通过自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)等技术,该方案助力企业挖掘多模态数据的价值,提升数据利用效率。
13 4
多模态文件信息抽取:技术解析与实践评测!
|
6天前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
|
6天前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
6天前
|
缓存 边缘计算 网络协议
深入解析CDN技术:加速互联网内容分发的幕后英雄
内容分发网络(CDN)是现代互联网架构的重要组成部分,通过全球分布的服务器节点,加速网站、应用和多媒体内容的传递。它不仅提升了访问速度和用户体验,还减轻了源站服务器的负担。CDN的核心技术包括缓存机制、动态加速、流媒体加速和安全防护,广泛应用于静态资源、动态内容、视频直播及大文件下载等场景,具有低延迟、高带宽、稳定性强等优势,有效降低成本并保障安全。
25 3
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。
|
24天前
|
数据采集 存储 JavaScript
网页爬虫技术全解析:从基础到实战
在信息爆炸的时代,网页爬虫作为数据采集的重要工具,已成为数据科学家、研究人员和开发者不可或缺的技术。本文全面解析网页爬虫的基础概念、工作原理、技术栈与工具,以及实战案例,探讨其合法性与道德问题,分享爬虫设计与实现的详细步骤,介绍优化与维护的方法,应对反爬虫机制、动态内容加载等挑战,旨在帮助读者深入理解并合理运用网页爬虫技术。
|
30天前
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
75 7
|
1月前
|
负载均衡 网络协议 算法
Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式
本文探讨了Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式,以及软件负载均衡器、云服务负载均衡、容器编排工具等实现手段,强调两者结合的重要性及面临挑战的应对措施。
78 3
|
2月前
|
供应链 算法 安全
深度解析区块链技术的分布式共识机制
深度解析区块链技术的分布式共识机制
62 0

推荐镜像

更多