通信领域的 NLP 技术与应用|学习笔记

简介: 快速学习通信领域的 NLP 技术与应用

开发者学堂课程【达摩院自然语言处理 NLP 技术和应用:通信领域的 NLP 技术与应用】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/41/detail/954


通信领域的 NLP 技术与应用


通信 NLP

第三部分为通信 NLP,也就是 NLP 怎么更好的赋能通信行业。

1.通信背景

大家平时都会收到一些短信,有一些 C2C 的短信,也有 B2C 的短信,今天更多的说 B2C 的短信。

一个商家在发短信之前,首先会在一个平台上进行不一样的信息报备,报备完之后,平台会做审核,审核通过之后,它才能去短信。

这里面存在两个问题,第一个是报备的信息与实际发短信的内容是不否的;第二个是在报备的信息里一些变量加入了违法违规的内容。

image.png

我们做了三个方面的技术:第一个是对短信内容进行安全识别,例如涉黄/政/违禁,识别完以后我们更好的保护底层的短信内容的安全,防止核心资源被关停;第二个进行全行业解析,解析完之后用户不用报备,可以直接发信息,而我们可以对信息进行审核。此外,我们希望可以更好的控制短信在 C 端的发送量,因为不希望一个用户在短时间内收到更多的信息,受到短信的干扰。但通过全行业解析,我们可以更好地控制整个通道的角色,因为通道里面都有分不同的行业能发到不同的通道里,如果是 I 行业发到 B 通道里,那这个通道有可能被关停。

2.短信 AI 产品

目前看,短信行业有三大痛点:

image.png

第一个,违法违禁短信屡禁不停造成恶劣的社会影响,严重影响客户体验,导致通道关停;第二,模板注册周期长,门槛高,短信内容自由度低,满足不了客户需求;第三,无法根据短信内容做通道调度,盲发造成高投诉,运营成本居高不下。

因此,我们设立了两大战役:第一,对短信安全进行管控;第二,提高短信运营效率。

3.技术难

image.png

首先,在短信里,有大概70个字的有限空间,这里面会做大量的变种,而且速度快;第二个,希望做到快速的干预,因为 B2C 的短信是根据模板并发出去的,量大,影响面广,所以需要有迅速的识别与快速干预的能力;第三个为外部特征,因为短信里含有大量的外部特征,比如 URL 、微信号、手机号等等,

文本信息只是起到部分作用,最终这个短信是不是有问题的短信或者某行业的短信,需要综合各种因素来判断;第四个是行业特征,管控范围高度定制:不仅是涉黄、涉政的传统反垃圾范围,还包括容易引发的高投诉的金融、营销等特殊短信类型。

4.短信内容安全/行业-示例

看三个例子,第一个为高危风险类型的短信,里面变种是比较快的,还有联系方式;第二个是营销类的短信,有微信的变种,包括微信号;第三个是金融类的短信,里面加入了链接,包括 QQ 号。

image.png

再看一个例子,这个为域名伪造。他其实并不是建设银行与中国银行发的短信,而是第三方利用域名伪造的短信,短信里有一个短链接,这个链接如果在 PC 端打开的话,他是正常的,如果在手机上打开,它就是一个有风险的短信,这样很容易导致用户上当,造成损失,而且迷惑性比较强。

5.通信场景解决方案

希望有一套全行业的解题思路来解决这个问题。

image.png

在底层有一些基础的能力,包括 NLP 基础的学习能力,机器学习能力,数据结构。

在核心能力这块,我们有五大引擎,首先是预警引擎,现在有挑战者机制,我们在现场会放两套模型,一套是准确率的模型,一套是召回率的模型,这两套实际上效果相差不大,一旦差的很大的时候,说明现场出现了一些问题,我们需要做一个预警。

第二,有个识别引擎,我们会对文本分析,通过行为分析,进行信息抽取,多个维度进行识别,找到潜在的有问题的短信。对黑话进行挖掘,包括 URL 进行详细的分析。

第三,还有干预引擎,现场算法拦截不到,我们希望可以快速干预,通过向量召回的方式,能够快速响应跟当前需要拦截的有问题的短信进行快速匹配。

第四,有一个对抗引擎,可以做到更多的数据回流,模型的自动更新。

当然,我们后台是一个反垃圾的平台,还有一套评估体系,我们会定期评估现场的准确率和召回率,此外我们通过一些投诉比和通道关停的占比,可以预警到潜在的问题,实时进行现场的抽样检查,包括数据效果的干预。

在应用场景,我们应用在风险管控,短信分类,行业标签和业务属性上。

image.png

6.短信的变异技术方案

image.png

这里有很多技术难点,第一,通过汉字的音变、形变,不同的创造新种实际上给管控带来了极大的难度,如果进行关键词拦截或传统机器学习方法,这种无法应对复杂的变种,因为整个的泛化能力不够;

第二个现有关于中文的 embedding 技术没有对汉字的拼音、字形进行整合,无法同时建模音变、形变,而且也没有考虑到变异潜在的传递性;

第三,现有技术未考虑和上下文有关的变异,例如“加我威信”和“树立威信”中的“威”,一个有变种一个没有变种。

如何让构造这种变异?目前考虑到三种方式。

第一种,拼音的变异;

第二种,字形的变异;

第三种,象形字的变异。所以在底层建构了汉字异构图,通过异构图可以把有效的信息连接在一起。

image.png

这是一个算话框架图,中间的圈是底层一个异构图,引入了一个变化组的概念,每一个变化组表示图上汉字结点的概率分布,如果两个汉字有较高的概率属于同一个变化组,那互相转化的概率是比较大的。此外,我们利用随机游走的算法,根据图上的随机游走路径,重复两个动作,第一个我们分配的变化组给每一个结点都分配一个变化组的信息,这样整个结点变成一个结点和变化组,这个过程就类似于 LDI 中的主题模型,给一段文本分配一个主题;第二个我们要学习变化组和结点的最终版汉字,这个过程就类似于 Thting Grame ,不一样的是 Thting Grame 当前的结点预测周围的结点。

而我们用的是结点和变化组对周围的结点和变化组的预测,通过这种方式,我们最终会形成词的 embedding 和变化组的 embedding ,最后我们把一个汉字的 embedding 和变化组的 embedding 作为当前 Graph的 embedding 。

在上下文中,它除了有文本信息之外,可能还有变化的信息,在这里我们设置了一个机制,机制融合了图的信息和文本信息。如果上下文中存在比较明显的变异,那么图的信息会比较多;如果上下文中补存在变异,那么文本信息会比较多。基于这种方式,我们可以很好的捕捉音变形变及其演化,目前 F 值大致提升了0.3。

实验结果与分析

image.png

发表于 EMNLP 2019上

右边展示了我们可以很好的捕捉到一些变化和特征,这些变化和特征可以很好的被我们识别出来。

7.长文本反垃圾模型(顺带介绍)

之前讲的是短文本的反垃圾情感分类,其实也会使用到长文本的反垃圾情感分类。

长文本反垃圾模型包括粗读模型和精读模型,粗读模型主要利用了卷进神经网络的级别特征,可以获得全句的语义信息。而精读模型是层次结构,它是由词到句子,再到段落,而每一部分都有三部分组成,连接的信息,门的信息,注意力的信息;可以获得词的前后语义信息以及全句的语义信息进行集合,词与句的编码信息。

image.png

其实句子跟段落是类似的。除此之外,由于这种粗读模型获得的语义信息可能会引入局部的噪音,因此我们涉入了对抗函数,它对粗读模型获得的全句语义信息进行了有效的惩罚,最终上面做了一个分类。这种方法使F值大致提升了0.2。

8.通信 NLP 效果和总结

通过平台化和智能化,目前在短信行业取得了一些效果。

整个的目标是为了全面提升短信的拦截体系,实现保通道、抗风险,为短信行业保驾护航。

通过开放全变量的方式提升短信服务效率和体验。

技术上目前内容安全准确率有51%提升到95,我们是一个多分类的问题,召回率在90%。全行业解析准确率85.66%

此外还发表了一些专利和论文。

业务方面累计拦截各种违法内容5KW条,上线前累计关闭通道121条,上线后8个月,累计关闭通道4条,保障11去年关闭34条,今年关闭1条,提供了各种违法特征库20000+。

违法特征库可以有效弥补在模型上不足。

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术在自然语言处理领域中实现情感分析。通过介绍情感分析的背景和原理,结合深度学习模型如LSTM、BERT等的应用,帮助读者了解情感分析的重要性以及如何利用最新技术实现更准确的情感识别。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习中的自然语言处理技术
【2月更文挑战第16天】 在数字化和智能化的浪潮中,自然语言处理(NLP)技术已成为连接人类与机器沟通的重要桥梁。本文深入探讨了机器学习在自然语言处理中的应用,包括最新的模型架构、算法优化技巧及实际场景中的挑战和解决方案。通过逻辑严密的分析,我们将揭示如何有效利用机器学习提升NLP系统的性能,同时对未来发展趋势进行预测。
23 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【2月更文挑战第31天】 随着人工智能的飞速发展,自然语言处理(NLP)技术在机器学习领域扮演着越来越重要的角色。本文旨在深入探讨NLP的关键技术,包括语言模型、词嵌入和深度学习方法,并分析这些技术如何相互协作,以实现更高效的文本分析和理解。通过案例研究和最新研究成果的介绍,我们展示了NLP在实际应用中的强大潜力,以及它如何推动人机交互和信息检索系统的革新。
21 0
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
48 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
技术进步:自然语言处理领域的演变与创新
技术进步:自然语言处理领域的演变与创新
43 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
随着深度学习技术的快速发展,自然语言处理领域也迎来了前所未有的机遇和挑战。本文将探讨深度学习在自然语言处理中的应用现状、关键技术及面临的挑战,并展望未来发展方向。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
传统的自然语言处理技术在面对复杂语义和语境时往往表现不佳,而深度学习技术的兴起为解决这一难题提供了新的可能性。本文将探讨深度学习在自然语言处理中的应用现状、关键技术及挑战,并展望未来的发展方向。
21 1
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【4月更文挑战第24天】本文深入探讨了自然语言处理(NLP)在机器学习领域中的应用与进展。通过分析最新的技术动态,阐释了深度学习如何增强NLP的能力,并讨论了当前面临的挑战及未来的发展趋势。文中不仅总结了NLP的核心概念和关键技术,还通过案例研究展示了其在实际应用中的潜力。
7 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索前沿技术:基于深度学习的自然语言处理应用与挑战
本文将深入探讨基于深度学习的自然语言处理(NLP)技术在当今应用中的重要性以及所面临的挑战。通过分析NLP的基本原理、应用场景和未来发展趋势,帮助读者更好地了解NLP技术的前沿领域和发展方向。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索自然语言处理:语言模型的发展与应用
探索自然语言处理:语言模型的发展与应用
14 0