挑战解法-阿里小蜜技术解析(二)|学习笔记

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 快速学习挑战解法-阿里小蜜技术解析

开发者学堂课程【阿里小蜜中的机器阅读技术:挑战解法-阿里小蜜技术解析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/43/detail/966


挑战解法-阿里小蜜技术解析(二)


二、解决方法和实践小结

此处整体对上述提到的解决方案与实践做一个小结:

1.构建领域数据集及低成本解决模型冷启动;

2.利用前置检索缩小范围提高问答准确率;

3.把整个原始端到端的这种模型拆分问答为多阶段增强模型可控及灵活性。

DTD 原则: Define - Transfer - Decompose  

整个抽象成三个原则就是 DTD 原则,Define 先去确认我们要适用的场景,同时再做一些 transfer 来去结合不同的任务、不同的领域使得在小数据场景下使用有更好的学习效果,再做一个 Decompose,就是把用于整个集成在一起的模型做一定的拆封,在每个阶段去分别加强它来达到更好的一个可控及灵活性。

除此之外分享一下除了前面在其他业务上做的落地的一些尝试,更多的扩展的场景首先是多语言,如下:

多语言- Lazada 印尼语平台规则

image.png

多语言-混合语言模型(Transfer)

image.png

这也是针对于整个活动的问答,如上是一个关于印尼语的平台规则的问答效果,其中尝试去做了一个多语言的突破。多语言的突破里面主要利用了混合语言模型去做整个跨语种的支持,首先众所周知不同语言之间可以有一些对齐的语言的词典,这种语言的词典表现为在一个语义空间里面,存在着像一些同义词这样的关系,设计过程中希望能把这些词都映射在同样的一个语义空间里,比如“狗和 dog”“月份和 January”“巴黎和 Paris”这样的词语其实表达的是同样的语义,在语义空间中把它们拉齐,如此虽然它字面的形式不一样,但在深层次、在高维的表示空间里,可以认为它依然代表着同样的一个具体的含义。基于这种统一的语义表示空间,需进一步的去构造一个需要的 Share Encoder,即一个共享的语言编码器,因为上述提到的更多只是在于词之间的对齐,句子是由词组成的,但是一个一个词去对齐不能很好地表示整个句子的意思,因此在此去做一个整体的共享语言编码器来实现语义的对齐,这里用到了不同于语言之间的一些单语模型 mono lingual corpus 去加强整个语言模型的构建,同时又引入了两个领域之间的 parallel corpus,即对其的语言数据,这种对齐数据可以更好的在语言空间上拉起两者的语义距离。构建了 Share Encoder 的好处是可以利用一些数据量更丰富的语言来训练在小语种情况下的一个模型表现,比如可以借助于英文语料去训练印尼语,同时,它可以提供一个很好的对于一些小语种去做 Zero-short 冷启动的场景,甚至在一些东南亚国家还存在着英文混杂着当地语言的混合语言现象,都可以通过 Share Encoder 混合语言的编码器去做一个很好的解决。

除了上述直接训练 Share Encoder 的方式,此处也同样使用了多语言模型的预训以及 BERT 去做进一步的机器阅读理解任务,如下:

多语言模型预训练- BERT

﹣多个数据集上性能 SOTA , Few - shot / Zero - shot Learning .

﹣训练耗时,模型在线服务成本高,特定领域效果一般

﹣结合 BERT 和知识蒸馏: logits 正则项/数据增广/简单学生模型

image.png

众所周知 BERT 在多个数据集上目前都是性能达到了最好,同时对于一些冷启动小数据的场景上有很强的一个泛化性,其缺点在于训练耗时,直接网上做线上部署服务成本比较高,而且在一些特定领域,由于它的域训练主要是在一些通用领域上,特定领域上的效果比较一般。因此在这里面主要是提出了结合 BERT 与知识蒸馏去做,比如可以去通过 BERT 在下一个任务上的微调去预测大量的  logits 正则项, 把它们作为一些老师的内容去让一些简单模型去做学习,对于这些简单学生模型或者简单模型来说,这个学习过程即常见的知识蒸馏,知识蒸馏的过程中往往还伴随着一些数据增广的一些方式,利用老师模型去扩充更多样的数据来让学生在场景中更多的维度做一个整体,更好的学习。

除了多语言这块,如下是多轮次的探索:

多轮次-从单轮问答到上下文对话

image.png

前面提到一个例子,对多轮次已经有了初步的体感,多轮次现在也是机器阅读理解领域中关注的一个主要问题之一,上图主要介绍 CoQA 这样的一个数据集,它是斯坦福大学提出来的基于对话式的机器阅读理解场景的一个数据。

图右提到 government 的一个竞选需要用到的相关材料,比如在整个竞选中“他是在哪里的?谁会支持他?他属于哪个政党?”在这个过程中,不可能每一句话都去完整地覆盖到这个问题的上下文,因此对于模型来说它需要去结合历史提过的问题以及相关的答案去把当前审核的信息做一个补充。

针对多轮次上下文的阅读理解,此处引入了 flow 结构:

基于 Flow 结构融合多轮信息

image.png

Flow 结构来自于 Flow QA 文章,其发表于2019年的 ICLR,在这篇文章里面提出了 Flow 的概念,Flow 相对于传统的文章编码多了一个维度,众所周知对于像rn这样的结构来说,它是将文章或者问题的词序列做了一一编码,Flow 结构引入了另外一个维度,在于多轮的这种轮次信息,作者认为这种文字在同一篇文章中的同一个单词上会有不同的一个信息,这种信息在不同的轮次之间流动的过程形成了一个 Flow 的结构。具体来说每一个单词在不同的轮次因为用户的问题关注点不同,所以与问题之间的一些关联程度或者 attention 之间也有差异,把这个差异性用序列模型建模出来,就是整个的一个 Flow 结构,将这个 Flow 结构引入到我们整体的文章建模与答案选择的环节,它可以有效的融入上文的一些相关信息,来对当前的问题做更好的补充。

除了多轮次、上下文的场景,还针对店小蜜商品详情页去探索了多模态的问答可能。

如图:

image.png

用户在淘宝的商家店铺里提到的问题可能是一个特别细节的、无法为当前的知识库所覆盖的问题,此时会根据提到的问题从商家商品所在的详情页中自动去截取相关的图片作为答案。在图中例子中,用户提到这款冰箱能否连接手机,我们会将其详情页中与手机冰箱以及互联的概念更好表现的图片最终选取返回给用户。这里涉及到了图文信息多模态的融合,同时详情页通常是多篇图片组成的,也是一个长篇幅的问答场景。

综上所述,已经陆续介绍了机器阅读的不同运用场景,它背后的技术以及形成的能力如下是整合的技术平台大图:

工业应用的机器阅读技术平台

image.png

最下面是整体机器阅读理解所沉淀的数据层,里面包含了通用的百科新闻以及针对领域的政策法规,零售场景的活动规则以及一些电器操作手册等等,还包括了具体的领域对话。

在之上形成了不同的算法模块,包括检索、问答、拒识、排序等等,基于这些模块对外输出了不同的技术能力。

主要分为两方面,一方面是多文档、多任务、多轮次、多语言、多模态、多领域这六种面向不同场景,不同类型的解决方案,同时对于不同的文本类型,比如纯文本可能包括长文档或多文档以及说明书的富文本,基于图片的多模态交互的这三种数据语言也可以作为一个阅读理解。

在这之上,沉淀了六大场景,包括活动规则,品牌政策,法规条款,办事指南,说明书,商品百科。


三、领域覆盖

image.png

在这些场景的具体产品化输出来支撑不同的渠道,比如阿里集团,微软的商家生态以及外部的企业生态,城市服务,以及海外业务等。

覆盖的领域,比如零售活动促销,政务税务相关的法规、政策、办事指南等,还有通用的百科型的、商品指南型的手册、说明等。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
147 10
|
3天前
|
缓存 算法 Oracle
深度干货 如何兼顾性能与可靠性?一文解析YashanDB主备高可用技术
数据库高可用(High Availability,HA)是指在系统遇到故障或异常情况时,能够自动快速地恢复并保持服务可用性的能力。如果数据库只有一个实例,该实例所在的服务器一旦发生故障,那就很难在短时间内恢复服务。长时间的服务中断会造成很大的损失,因此数据库高可用一般通过多实例副本冗余实现,如果一个实例发生故障,则可以将业务转移到另一个实例,快速恢复服务。
深度干货  如何兼顾性能与可靠性?一文解析YashanDB主备高可用技术
|
12天前
|
Kubernetes Linux 虚拟化
入门级容器技术解析:Docker和K8s的区别与关系
本文介绍了容器技术的发展历程及其重要组成部分Docker和Kubernetes。从传统物理机到虚拟机,再到容器化,每一步都旨在更高效地利用服务器资源并简化应用部署。容器技术通过隔离环境、减少依赖冲突和提高可移植性,解决了传统部署方式中的诸多问题。Docker作为容器化平台,专注于创建和管理容器;而Kubernetes则是一个强大的容器编排系统,用于自动化部署、扩展和管理容器化应用。两者相辅相成,共同推动了现代云原生应用的快速发展。
74 11
|
21天前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
|
21天前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
21天前
|
缓存 边缘计算 网络协议
深入解析CDN技术:加速互联网内容分发的幕后英雄
内容分发网络(CDN)是现代互联网架构的重要组成部分,通过全球分布的服务器节点,加速网站、应用和多媒体内容的传递。它不仅提升了访问速度和用户体验,还减轻了源站服务器的负担。CDN的核心技术包括缓存机制、动态加速、流媒体加速和安全防护,广泛应用于静态资源、动态内容、视频直播及大文件下载等场景,具有低延迟、高带宽、稳定性强等优势,有效降低成本并保障安全。
65 4
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。
|
1月前
|
数据采集 存储 JavaScript
网页爬虫技术全解析:从基础到实战
在信息爆炸的时代,网页爬虫作为数据采集的重要工具,已成为数据科学家、研究人员和开发者不可或缺的技术。本文全面解析网页爬虫的基础概念、工作原理、技术栈与工具,以及实战案例,探讨其合法性与道德问题,分享爬虫设计与实现的详细步骤,介绍优化与维护的方法,应对反爬虫机制、动态内容加载等挑战,旨在帮助读者深入理解并合理运用网页爬虫技术。
|
1月前
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
103 7
|
1月前
|
负载均衡 网络协议 算法
Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式
本文探讨了Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式,以及软件负载均衡器、云服务负载均衡、容器编排工具等实现手段,强调两者结合的重要性及面临挑战的应对措施。
101 3

热门文章

最新文章

推荐镜像

更多