开发者社区> 青衫无名> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

解密:Gmail移动客户端自动邮件回复技术

简介:
+关注继续查看

雷锋网(公众号:雷锋网)按:本文作者NLP日月星辰,北京航空航天大学在读博士生,研究方向为 自然语言处理,深度学习。

深度学习已经在许多工业产品中取得应用。例如Jeff Dean(谷歌大脑负责人)在去年的WSDM会议上指出,谷歌的搜索相关性计算模块,深度学习的三个特征是权重最大的。

并且深度学习算法也大量的应用到了谷歌和百度的机器翻译系统之中,使机器翻译质量提升。本文将介绍另一个深度学习的应用,邮件自动回复。

手机版邮件系统的困扰

自动回复是否可以在工业中进行实际应用,一直是人们喋喋不休争论的一个问题,很多人认为对话系统,所利用的自动回复技术只是一个玩物,无法解决用户的刚需。而谷歌,在去年十一月将自动回复技术应用到了Inbox中。

Inbox是谷歌在手机上的邮件客户端,类似于手机上的Outlook。Inbox利用深度学习技术,增添了为一些语义简单的邮件进行自动回复的功能,拟解决“由于屏幕较小,手机邮件回复很不方便”的用户痛点。其中主要解决如下几个问题:

  1. 如何选择可回复邮件:当今商务人士邮件众多,很多邮件并不长,据谷歌统计有百分之25%的邮件少于20个词。那么对这些简短且语义好理解的邮件是否可以通过分类进行筛选,交给邮件生成系统是一个有趣的分类问题。

  2. 回复的邮件是否可分类:很多邮件的回复类型可枚举,例如问“下午三点是否可以参加XXX会议”,答案无非是“可以参加”,“有事情不能参加”,“我在想想”这三个情况,所以如何通过算法将三种类型的回复进行聚类是一个有现实意义的聚类问题。

  3. 如何针对每个类选出最合适的邮件:针对每个类,如何通过自动回复算法生成特定的回复,是一个自然语言处理上的回复生成问题。

系统架构

谷歌于今年KDD会议上,发布了SmartReply的论文。我们首先看SmartReply的架构

解密:Gmail移动客户端自动邮件回复技术

从图中可以看到,系统分为四个部分,分别是可回复邮件筛选,回复邮件聚类,回复邮件选择,和多样性回复生成,之后将一一介绍。

可回复邮件筛选机制(Trigger Response)

模块功能

在谷歌的邮件回复系统中,并不是每一封邮件都会给出自动回复的建议。因为有些邮件意思简单明了,机器可以快速的理解,并给出一些回复候选。

例如:今天晚上七点我们开个会讨论一下项目修改方案吧。

这个邮件机器可以快速理解,并通过之后的步骤给出对应的候选方案。然而,还存在着一些邮件结构复杂,机器并不能很好的理解其中含义。

例如:我已经看完你的论文,在你的论文中,公式2的推导出现了错误,我觉得倒数应该用链式法则求解。

总之,在回复之前,需要一个模块判定机器是否可以理解邮件语义,避免在不理解的时候仍然给出邮件回复候选,使用户感到被骚扰。

模块实现方法

可回复邮件的筛选机制归根结底是一个分类问题,即给定训练集合 D ={X,Y},X代表文档的特征集合,Y代表文档的标签,学习函数f(x),使得y与f(x)的误差最小。在此任务中谷歌选择了多层感知机作为分类器,多层感知机如下图所示

解密:Gmail移动客户端自动邮件回复技术

在此分类任务中,这篇论文使用了一元词汇(Unigram)和二元词汇(Bigram)来对抽取特征,并将同一类的特征进行相加,得到MLP的输入。

这个MLP模型有三个隐层层,每层的激活函数使用了ReLU,且利用DropOut防止过拟合。最终经过试验证明,这个分类模型的AUC为0.854。针对此模块,笔者观点如下:

  1. MLP模型算是文本分类的最简单模型之一,然而简单模型在这个任务上仍能取得不错的效果,这和一些其他的论文得到的结论一致(例如Facebook的FastText,利用简单的结构就可以在分类任务和复杂结构的网络得到近似的效果)。大部分现实分类任务简单,很多简单的模型便可以达到还不错的效果,刻意追求模型的复杂性在简单任务上往往得不偿失。

  2. AI(人工智能)+HI(人类智能)仍然是现在的AI产品不可或缺的一环,即使分类器表现良好达到85%,但在工业级的系统中,仍然会有15%出错,所以SmartReply系统是让用户选择他生成的回复,而不是直接帮助用户进行邮件回复或者邮件书写。

回复生成、聚类、以及多样性选择算法

模块功能

此模块为该应用核心,功能如图所示,当用户收到一封邮件,Inbox会自动生成3个供挑选回复(三个回复在屏幕下侧)。例如,第一封邮件的三个回复分别为:

1. Count us in!

2. We will be there

3. Sorry we won't be able to make it

这样可以加速用户在手机端输入不便,回复邮件较慢的体验。

解密:Gmail移动客户端自动邮件回复技术

模块实现方法

此篇文章中,最核心的东西便是回复的生成以及聚类了。和面向开放领域的聊天机器人不同,邮件回复需要对回复进行聚类,之后从每个类别中选一个代表句。

回复聚类的算法如下:

  1. 构建图G={V,E},V是图中的点,E是图的边。V由来信,回信,以及回信的特征构成。

  2. 首先抽样N个邮件作为顶点,构建顶点集合VR。为每个类别人工选择种子邮件(例如 Thank you , Thanks是感谢类的邮件),并将这些邮件VL也放到图G中。此时由于人工的干预,我们知道在特定的类别Ci有{r1,r2...rn}个回复属于此类。

  3. 通过词汇特征的抽取,构建G中代表特征的顶点集合VF,如果邮件有该特征则邮件和该顶点进行连接。

解密:Gmail移动客户端自动邮件回复技术

之后使用了半监督的聚类方法将邮件进行聚类,并且每隔特定轮次,进行新类别发现,最终得到376类。类别例如(will do, Thanks, I got it 等)

回复选择部分并没有什么创新点,是一个基于LSTM模型的排序问题,候选集合是由most frequent的回复邮件构成,值得注意的是此篇所用的LSTM并不是利用一个Dual-LSTM讲发来的邮件和回复邮件分别进行encoding之后计算相似度。而是类似LSTM的生成模型,计算给定所发来邮件O的时候,回复中每个词被生成的概率P(wi|O)

解密:Gmail移动客户端自动邮件回复技术

在具体的实际应用中,可以根据场景的不同选择基于深度学习的回复算法。我们可以看到针对回复选择这部分,由于候选回复均为高频回复邮件,所以回复会十分的没有营养,大多基于简单的英文表达(Sure,No,Thanks)等,想必如何让邮件回复和邮件内容正确的呼应起来也是非常值得研究的一个课题,这样可以避免千篇一律的回复,让被回复者有不受尊重的感觉。

在多样性选择方面,按照文章的叙述做了两个后处理。

第一个后处理是重复回复删除,操作具体方法十分简单,首先根据上面所说的邮件排序系统对所有候选邮件进行降序排列,之后从top1开始加入系统要输出的集合OUTPUT中。

之后每个候选回复邮件r在加入OUTPUT时,检测r是否与OUTPUT中的任意邮件属于上面聚类算法所给出的同一个类别,如果不是才可以加入OUTPUT之中。OUTPUT达到3个回复即停止迭代。

第二个后处理是强行生成拒绝倾向的回复。如果OUTPUT集合中的回复中没有拒绝倾向的回复,且top2中有同意倾向的回复,则自动将第三个回复替换为拒绝倾向。以此给出更加多样的回复,让使用者的选择面更大。

结语

SmartReply是谷歌将回复选择技术利用到移动版邮件系统的一个尝试,希望解决手机打字不便的问题。论文叙述了一个系统,并为我们实现一个邮件回复系统指明了方向。


本文作者:NLP日月星辰


本文转自雷锋网禁止二次转载,原文链接

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
SSH工具客户端软件大全
SSH工具哪个好用?SSH是指安全外壳协议(Secure Shell),是一种加密的网络传输协议,使用SSH工具常用来远程登录系统和远程执行命令行。SSH客户端很多,码笔记分享SSH工具客户端软件大全,包括Windows系统和MAC系统下的SSH客户端软件: 关于SSH密匙可以参考:SSH密钥详解(生成方式、原理及限制),码笔记主要介绍SSH工具客户端大全: SecureCRT SecureCRT最初是Windows系统下的SSH、Telnet客户端和虚拟终端软件,现在SecureCRT已经支持Mac OS和Linux系统。
19165 0
嵌入式 Linux线程同步读写锁rwlock示例
读写锁比mutex有更高的适用性,可以多个线程同时占用读模式的读写锁,但是只能一个线程占用写模式的读写锁。1. 当读写锁是写加锁状态时,在这个锁被解锁之前,所有试图对这个锁加锁的线程都会被阻塞;2. 当读写锁在读加锁状态时,所有试图以读模式对它进行加锁的线程都可以得到访问权,但是以写模式对它进行枷锁的线程将阻塞;3. 当读写锁在读模式锁状态时,如果有另外线程试图以写模式加锁,读写锁通常会阻塞随后的读模式锁请求,这样可以避免读模式锁长期占用,而等待的写模式锁请求长期阻塞;这种锁适用对数据结构进行读的次数比写的次数多的情况下,因为可以进行读锁共享。
929 0
巧用foxmail同步qq邮箱的通讯录
如果您企业使用的qq企业邮箱,那么你在web端登陆邮箱并填写收件人时,发现QQ邮箱是可以自动完成,并且中文名称自动完成。 如何在使用foxmail邮件客户端的情况下也同步这些邮箱信息呢?需要七步,看截图 1.
3724 0
Email邮件头揭密
http://www.moon-soft.com/download/info/1889.htm
459 0
+关注
3593
文章
840
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载