开发者学堂课程【达摩院自然语言处理 NLP 技术和应用:通信领域的 NLP 技术与应用】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/41/detail/954
通信领域的 NLP 技术与应用
通信 NLP
第三部分为通信 NLP,也就是 NLP 怎么更好的赋能通信行业。
1.通信背景
大家平时都会收到一些短信,有一些 C2C 的短信,也有 B2C 的短信,今天更多的说 B2C 的短信。
一个商家在发短信之前,首先会在一个平台上进行不一样的信息报备,报备完之后,平台会做审核,审核通过之后,它才能去短信。
这里面存在两个问题,第一个是报备的信息与实际发短信的内容是不否的;第二个是在报备的信息里一些变量加入了违法违规的内容。
我们做了三个方面的技术:第一个是对短信内容进行安全识别,例如涉黄/政/违禁,识别完以后我们更好的保护底层的短信内容的安全,防止核心资源被关停;第二个进行全行业解析,解析完之后用户不用报备,可以直接发信息,而我们可以对信息进行审核。此外,我们希望可以更好的控制短信在 C 端的发送量,因为不希望一个用户在短时间内收到更多的信息,受到短信的干扰。但通过全行业解析,我们可以更好地控制整个通道的角色,因为通道里面都有分不同的行业能发到不同的通道里,如果是 I 行业发到 B 通道里,那这个通道有可能被关停。
2.短信 AI 产品
目前看,短信行业有三大痛点:
第一个,违法违禁短信屡禁不停造成恶劣的社会影响,严重影响客户体验,导致通道关停;第二,模板注册周期长,门槛高,短信内容自由度低,满足不了客户需求;第三,无法根据短信内容做通道调度,盲发造成高投诉,运营成本居高不下。
因此,我们设立了两大战役:第一,对短信安全进行管控;第二,提高短信运营效率。
3.技术难点
首先,在短信里,有大概70个字的有限空间,这里面会做大量的变种,而且速度快;第二个,希望做到快速的干预,因为 B2C 的短信是根据模板并发出去的,量大,影响面广,所以需要有迅速的识别与快速干预的能力;第三个为外部特征,因为短信里含有大量的外部特征,比如 URL 、微信号、手机号等等,
文本信息只是起到部分作用,最终这个短信是不是有问题的短信或者某行业的短信,需要综合各种因素来判断;第四个是行业特征,管控范围高度定制:不仅是涉黄、涉政的传统反垃圾范围,还包括容易引发的高投诉的金融、营销等特殊短信类型。
4.短信内容安全/行业-示例
看三个例子,第一个为高危风险类型的短信,里面变种是比较快的,还有联系方式;第二个是营销类的短信,有微信的变种,包括微信号;第三个是金融类的短信,里面加入了链接,包括 QQ 号。
再看一个例子,这个为域名伪造。他其实并不是建设银行与中国银行发的短信,而是第三方利用域名伪造的短信,短信里有一个短链接,这个链接如果在 PC 端打开的话,他是正常的,如果在手机上打开,它就是一个有风险的短信,这样很容易导致用户上当,造成损失,而且迷惑性比较强。
5.通信场景解决方案
希望有一套全行业的解题思路来解决这个问题。
在底层有一些基础的能力,包括 NLP 基础的学习能力,机器学习能力,数据结构。
在核心能力这块,我们有五大引擎,首先是预警引擎,现在有挑战者机制,我们在现场会放两套模型,一套是准确率的模型,一套是召回率的模型,这两套实际上效果相差不大,一旦差的很大的时候,说明现场出现了一些问题,我们需要做一个预警。
第二,有个识别引擎,我们会对文本分析,通过行为分析,进行信息抽取,多个维度进行识别,找到潜在的有问题的短信。对黑话进行挖掘,包括 URL 进行详细的分析。
第三,还有干预引擎,现场算法拦截不到,我们希望可以快速干预,通过向量召回的方式,能够快速响应跟当前需要拦截的有问题的短信进行快速匹配。
第四,有一个对抗引擎,可以做到更多的数据回流,模型的自动更新。
当然,我们后台是一个反垃圾的平台,还有一套评估体系,我们会定期评估现场的准确率和召回率,此外我们通过一些投诉比和通道关停的占比,可以预警到潜在的问题,实时进行现场的抽样检查,包括数据效果的干预。
在应用场景,我们应用在风险管控,短信分类,行业标签和业务属性上。
6.短信的变异技术方案
这里有很多技术难点,第一,通过汉字的音变、形变,不同的创造新种实际上给管控带来了极大的难度,如果进行关键词拦截或传统机器学习方法,这种无法应对复杂的变种,因为整个的泛化能力不够;
第二个现有关于中文的 embedding 技术没有对汉字的拼音、字形进行整合,无法同时建模音变、形变,而且也没有考虑到变异潜在的传递性;
第三,现有技术未考虑和上下文有关的变异,例如“加我威信”和“树立威信”中的“威”,一个有变种一个没有变种。
如何让构造这种变异?目前考虑到三种方式。
第一种,拼音的变异;
第二种,字形的变异;
第三种,象形字的变异。所以在底层建构了汉字异构图,通过异构图可以把有效的信息连接在一起。
这是一个算话框架图,中间的圈是底层一个异构图,引入了一个变化组的概念,每一个变化组表示图上汉字结点的概率分布,如果两个汉字有较高的概率属于同一个变化组,那互相转化的概率是比较大的。此外,我们利用随机游走的算法,根据图上的随机游走路径,重复两个动作,第一个我们分配的变化组给每一个结点都分配一个变化组的信息,这样整个结点变成一个结点和变化组,这个过程就类似于 LDI 中的主题模型,给一段文本分配一个主题;第二个我们要学习变化组和结点的最终版汉字,这个过程就类似于 Thting Grame ,不一样的是 Thting Grame 当前的结点预测周围的结点。
而我们用的是结点和变化组对周围的结点和变化组的预测,通过这种方式,我们最终会形成词的 embedding 和变化组的 embedding ,最后我们把一个汉字的 embedding 和变化组的 embedding 作为当前 Graph的 embedding 。
在上下文中,它除了有文本信息之外,可能还有变化的信息,在这里我们设置了一个机制,机制融合了图的信息和文本信息。如果上下文中存在比较明显的变异,那么图的信息会比较多;如果上下文中补存在变异,那么文本信息会比较多。基于这种方式,我们可以很好的捕捉音变形变及其演化,目前 F 值大致提升了0.3。
实验结果与分析
发表于 EMNLP 2019上
右边展示了我们可以很好的捕捉到一些变化和特征,这些变化和特征可以很好的被我们识别出来。
7.长文本反垃圾模型(顺带介绍)
之前讲的是短文本的反垃圾情感分类,其实也会使用到长文本的反垃圾情感分类。
长文本反垃圾模型包括粗读模型和精读模型,粗读模型主要利用了卷进神经网络的级别特征,可以获得全句的语义信息。而精读模型是层次结构,它是由词到句子,再到段落,而每一部分都有三部分组成,连接的信息,门的信息,注意力的信息;可以获得词的前后语义信息以及全句的语义信息进行集合,词与句的编码信息。
其实句子跟段落是类似的。除此之外,由于这种粗读模型获得的语义信息可能会引入局部的噪音,因此我们涉入了对抗函数,它对粗读模型获得的全句语义信息进行了有效的惩罚,最终上面做了一个分类。这种方法使F值大致提升了0.2。
8.通信 NLP 效果和总结
通过平台化和智能化,目前在短信行业取得了一些效果。
整个的目标是为了全面提升短信的拦截体系,实现保通道、抗风险,为短信行业保驾护航。
通过开放全变量的方式提升短信服务效率和体验。
技术上目前内容安全准确率有51%提升到95,我们是一个多分类的问题,召回率在90%。全行业解析准确率85.66%
此外还发表了一些专利和论文。
业务方面累计拦截各种违法内容5KW条,上线前累计关闭通道121条,上线后8个月,累计关闭通道4条,保障11去年关闭34条,今年关闭1条,提供了各种违法特征库20000+。
违法特征库可以有效弥补在模型上不足。