从问题到答案,阿里云问答算法句义理解

简介: AI重新定义了客服的方式,在这篇文章中,我们将介绍一下目前云博士机器人使用的一些算法以及相关的背景,为读者构建一个基本的框架。

背景简介

随着阿里云业务的增长,售后工程师们需要解决的问题数量逐步增大,在解决复杂的技术问题的同时,还是有不小一部分的同质化的业务咨询问题需要解决。所以,这时候云博士的出现就是为了解决那些可以通过机器回答的问题,让售后工程师们能聚焦在更加紧急复杂的问题上。
随着数据的沉淀,我们积累了大量的用户历史问题,对应解决的知识点的数据,算法如何使用这些数据,然后解决用户问题,我们会在下面的篇幅中逐步介绍。

如何找到相似问法?

当算法知道“机器无法打开”对应的是知识点K,那么用户遇到了一个问题:“电脑不能启动”的时候,我们希望算法能直接将这个这个问题等同于已经知道的“机器无法打开”,然后推送给用户知识点K。而这里头的关键就是,“电脑不能启动” = “机器无法打开”。从传统的角度来看,如果我们用关键字匹配,不难发现上面的两个问题是正交的,即两个问题中并没有共同出现过任何一个一样的词。因此如果仅从字符串硬匹配的角度来看,是没有办法得到我们心仪的知识点K的。
所以我们需要一种机制或者说数据形态来表示这两个问题,同时能让机器能明白其中一定的语义信息,同时也有一定的机制来衡量两个句子的相似度。

句向量

句向量,从定义来看,就是一串的固定维度的数字向量(机器对于数字的处理更好),存在一个模型,任意描述的句子,都会被转化为一个句向量。那有了这个向量,我们有没有一个数学手段来衡量句跟句之间的相似度呢?好办,用两个词向量之间的距离来表示词之间的相似度。
到此为止,业务问题已经被一定程度上定义为了一个基础的算法问题,之后我们要做的就是寻找合适的数学框架和算法模型来把这个问题填充进去,用算法模型来实现这个业务问题。
经过一些调研,我们不难发现DSSM就是一个非常符合我们需求的数学算法模型,同时也有成熟的技术方案。
在接下来的篇幅中我们来介绍一下这个模型:
DSSM的全称为Deep Structured Semantic Model,如名字所述,是现在红遍大江南北的深度学习模型中的一员,在信息检索系统中大放异彩。原始结构如下图所示:

1

模型的输入层是一个query以及与之相关的文档,输入的时候以one-hot的形式输入,之后进行了三层的全连接神经网络处理,得到一个语义特征y。训练的过程中,模型会根据query以及每个文档的相似性去优化这两个y之间的cosine夹角距离,使得相似的query和文档的距离更近,不相似的距离更远。这里头的核心思想和LDA(Linear Discriminant Analysis) 有异曲同工之妙。
还记得我们在文章开始说的那些优质且大量的历史问题,对应解决知识点的数据,经过重新组织,如果两个历史问题的知识点对应的是一样的,那么就整合为(历史问题1,历史问题2,1),其中1表示两个问题相似,之后再随机抽取一些负例样本,即两个问题对应的知识点不相似,组织为(历史问题3,历史问题4,0)。这样一组优质的数据集就已经整合完毕了,之后就可以进行训练了。
在数据量足够大的情况下,这个模型能够忽略掉很多不重要的信息,只关注那些有价值的信息,与此同时,也能明白“电脑”等同于“主机”,“无法”等同于“不能”这样的同义词。
基于这个模型,当一个新问题进来的时候,模型能快速的找到最接近的历史问题,并且推送对应的知识点。这样一个最基本的问答流程就已经搭起来了。

结语

DSSM本身虽然功能强大,但是还是有很多不可避免的缺陷,比如训练时间过长,对于词表以外的词不支持,语义向量也没有保存下词序的信息。但是科技总是不停进步的,随着时间的发展,涌现了不少基于DSSM模型的变更版本,比如CDSSM,LSTM-DSSM,MVDSSM等,也是的这个语义模型本身变得愈发强大。

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
3月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
6月前
|
机器学习/深度学习 算法 数据中心
【机器学习】面试问答:PCA算法介绍?PCA算法过程?PCA为什么要中心化处理?PCA为什么要做正交变化?PCA与线性判别分析LDA降维的区别?
本文介绍了主成分分析(PCA)算法,包括PCA的基本概念、算法过程、中心化处理的必要性、正交变换的目的,以及PCA与线性判别分析(LDA)在降维上的区别。
139 4
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
8月前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
机器学习/深度学习 存储 算法
阿里云国际站:拍立淘-以图搜图中的图像搜索算法是怎么样的?
@luotuoemo飞机@TG 阿里云国际站:拍立淘-以图搜图中的图像搜索算法是怎么样的?图像搜索在现代搜索系统中扮演了重要角色,尤其在电子商务网站如阿里巴巴等,它更是一个必不可少的功能。拍立淘是阿里云国际站的一个以图搜图功能,它使用了复杂的图像搜索算法进行图片匹配和识别。以下是对该算法的简单描述。
|
9月前
|
存储 自然语言处理 算法
阿里云百炼之RAG算法能力分享会来喽|速来围观~
阿里云百炼是基于通义大模型、行业大模型以及三方大模型的一站式大模型开发平台。提供完整的模型训练工具和全链路开发套件,预置丰富的应用插件,提供便捷的集成方式,结合企业专属数据和API,帮企业高效完成大模型应用构建。RAG检索增强应用是在通义千问-Max大模型基础之上,专项增强「基于知识检索的大模型生成能力」,支持基于结构化/非结构化内容的文字生成场景。
|
9月前
|
人工智能 监控 算法
阿里云PAI-EAS算法服务挑战赛:开启AI新时代
阿里云PAI-EAS算法服务挑战赛:开启AI新时代
489 1
|
9月前
|
算法 开发工具 Android开发
AliCloudDenoise算法助力阿里云视频云实时会议进入超清音质时代
阿里云音视频通信RTC(Real-Time Communication)是覆盖在全球范围内的实时音视频开发平台。依托核心音视频编解码、信道传输、网络调度等技术,为您提供高可用、高品质、超低延时的音视频通信服务。除核心功能的提供外,阿里云音视频通信RTC SDK还以插件的形式提供多种增值服务,AliCloudDenoise算法插件即是其中一种。该算法插件可以将噪声滤除,提升语音质量和可懂度,为在线会议、在线教育等实时通信场景提供卓越的语音体验。
293 1

热门文章

最新文章