开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):自然语言理解技术的介绍与应用(一)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19280
自然语言理解技术的介绍与应用(一)
课程目标:
一、 文本分类技术介绍与应用
二、 情感分析技术介绍与应用
三、 文本纠错技术介绍与应用
四、 问答系统技术介绍与应用
五、 总结
一、文本分类技术介绍与应用
1、文本分类技术与实现方法介绍
(1)随着信息的爆炸式增长,人工标注数据已经非常地耗时,质量低下,而且标注的时候容易受到人的主观意识的影响,所以用机器自动化的对文本进行标注就变得有意义。把重复的而且枯燥的文本标注的任务交给计算机处理,能够克服以上的问题。同时计算机标注的数据具有一致性,质量很高。文本分类技术是对文本按照一定的分类标准进行自动分类标记,文本分类是根据一个已经被标注的训练文档集合来找到文档的特征和文档类别之间的关系模型,然后再用学习到的关系模型对新的文档进行分类判断,类别判断。文本分类早期是基于知识的方法,慢慢就变成了基于统计机器学习的方法。看一下下面的流程图:
文本分类首先要有大拿的文本已经做了标注的,这些是训练样本,把训练样本放到学习系统里面,然后用一个分类器去训练,先得到分类器,分类器就有用了。当再输入样本的时候,分类系统就可以根据分类器判断新的样本是属于哪一个分类结果。
这种文本分类问题,它的方法可以归结为利用待分类的数据的特征和类别进行匹配,然后选择最优的匹配结果作为分类的结果,可以通过机器学习的框架来描述文本分类的问题。
(2)文本分类分为两个过程,一个是学习过程,一个是分类过程。在分类问题里面最简单的是二分类,像上面图里面也是只有两个类别。比如说垃圾邮件检测就是一个二分类的问题,邮件是垃圾邮件或者不是垃圾邮件。
2、文本分类技术的应用场景
文本分类是从给定的标签集合自动地给文本打标签,应用非常广泛。下面列举了三种:
(1)第一个是邮件的属性分类,比如说可以帮去判断是否为垃圾邮件,一般的邮箱服务提供商会把完成这件事,标注邮件是不是垃圾邮件,有可能垃圾邮件就自动分到垃圾邮件箱里去了。
邮件属性分类检测它的类别还能做更先进一点的事情,比如说自动邮件回复。在跨境电商的场景里面,用邮件属性分类可以去识别用户反馈的问题是什么,或者是哪一个类别,可能问的是产品质量的类别,可能问的是快递的问题,可能是产品描述的问题,可以基于问题的类别去进行自动的回复,就节省了大量的人工和人力。
(2)第二个应用场景广告内容审核,可以通过文本分类技术判断一段文本是不是广告。在有些场景里面是不允许发送广告的,还可以判断是否有灌水评论,还有一些是判断里面是否有违规的内容,这都是对文本的内容审核。
(3)第三个应用场景是新闻的分类推送,使用文本分类技术可以判断新闻的类别,新闻是属社会新闻、体育新闻、政治新闻或者是娱乐新闻等,可以判断新闻类别。推送新闻的时候,根据类别进行推送,这是文本分类技术的一些常见的应用场景。
二、情感分析技术介绍与应用
1、情感分析技术与实现方法介绍
(1)随着互联网的飞速发展,越来越多的互联网用户从单纯的信息的受众变成了互联网信息的制造者和参与者。在互联网中像博客、微博、评论、论坛,用户在里面可以写很多主观的文本,对某个产品或者是服务进行评价,或者是对新闻事件或者政策去发表观点。这些互联网用户,会产生带有主观性的文本,而文本是有助于制定决策。
比如潜在的消费者在购买某个商品或者是服务的时候,获取相关的评价,可以做自己决策的参考;政府部门也可以看一下公众对于新闻事件或者政策的看法来了解舆情,这些主观性的文本对于决策者去制定商业策略或者是决策都非常地重要。
而以往这种事情只能靠人工的监控分析,会耗费大量的人工成本,而且有很强的滞后性,所以用计算机做自动化的情感分析,是现在学术界和工业界的大趋势。
(2)情感分析技术又叫倾向性分析或意见挖掘,是对有情感色彩的主观文本进行分析、处理、归纳和推理,利用情感分析能力,针对带有主观描述的自然语言文本自动地判别文本的情感的正负倾向等,并给出相应的结果。
根据分析的载体不同,情感分析会涉及很多主题,包括电影评论、商业评论和新闻博客等情感分析。大多数的情感分析研究都使用机器学习方法,对情感分析研究到目前为止主要集中在两个方面,一个是识别给定的文本它的实体是主观的还是客观的,识别主观的文本的极限。文本可以化为积极和消极两类,或者是积极,或者是消极,或者是中性的分类。
情感分析的实现方法如下,首先用预标记词汇组成词典,然后用词法分析器,要去识别情感的样本,文本作为输入样本,然后把样本进行分词到字典去匹配。进行文本匹配之后,如果是匹配的,做一个判断,就提高得分,如果不匹配就降低得分,提高或者是降低得分,最后文本会有一个最终的得分,根据得分,再去判断的情感。
分类分到哪一类取决于的总得分,目前有大量的工作是致力于这种不良词法信息的有效性。对于手动标记词汇的方式,大概能有85%的准确率,是由评价文本的主观性决定的。
用这种词法分析的方式也有不足,如果字典的大小变大了,词的数量增加,它的性能就会快速下降。目前情感分析在实际的生产场景中得到越来越多的应用。
2、情感分析技术的应用场景
(1)首先是电子商务,情感分析最常用的领域就是电子商务,例如淘宝、京东,用户在购买一件商品之后,会发表关于商品的体验,通过分配等级和分数,网站能够为产品和商品的不同功能提供简要的描述,客户可以很容易地产生关于整个产品的建议和反馈。通过分析用户的评价,可以帮助网站提高用户的满意度,完善不到位的地方。电子商务就是要不断的用产品的反馈,然后用情感的分析来进行产品的优化。
(2)第二个是舆情分析,不管是政府还是公司,都需要不断地监控社会对自身的舆论态度,来自消费者或者任何第三方机构的正面或者负面的新闻报道,都会影响到公司的发展。
相对于消费者,公司会更看重品牌声誉的管理。现在由于互联网的放大效应,任何一点的小事都可能发酵为大的舆论风暴,及时的感知舆情,进行情感分析,有助于及时的公关,正确的维护好公司的品牌。
(3)第三个是市场分析,在市场分析领域里,用情感分析可以帮助企业实时地获得消费者的意见,不仅仅是对自己的产品意见,可能也有对竞争对手的产品的意见,可能也有消费者对于新产品的呼声,能用情感分析这种方式,可以准确的分析产品和服务的市场反响,来制定营销策略。
(4)最后一个是用户维护功能,用情感分析技术去提取用户的意见,去从用户的意见里面来确认产品的功能需求。以上是情感分析技术的一些应用场景。
三、文本纠错技术介绍与应用
1、文本纠错技术实现方法介绍
文本纠错技术可能都见过,比如说用word去编辑文本的时候,有些情况下字符的底部会出现波浪线的符号,比如说“自然语言处理是有趣地科学”,如果是这样的话,下面有波浪线,这是因为系统检测到文本存在错误,或者是有一些问题的时候,字符的底部会出现波浪号提示这里有问题,这种技术用到的就是文本纠错技术,顾名思义文本纠错技术就是将文本中有错误的地方进行纠正。
文本中有的错误类型,比如有错别字、缺失字、冗余字,有词语搭配的错误或者是语法的错误等。目前有一些开源的文本纠错工具,但是工具可能能满足一些场景的文本纠错的需求,但是距离真正的应用还有较大的差距,所以有的时候有必要自己构建一个文本纠错系统。
文本纠错用人工智能去做,它比人类会更有优势,比如说它能够评估和权衡相关的因素,比人类要更快要更准确地能识别出来。
特别是人类检查文本的时候会有一些盲区,就是去阅读的时候,看到人类会下意识的纠错,阅读的时候可能觉得查不到文字的错误。比如说读自然语言处理技术是人工智能的一个重要分支,如果读的快一点,发现没有么明显,这种情况下,就最好就用文本纠错系统辅助去检查一下。
2、文本纠错技术应用的实现方法
中文的文本纠错通常包含两个步骤,第一步是错误检测,第二步是错误纠正。输入文本(自然语言处理技术是人工只能的一个重要分支),然后进行错误检测,错误检测的时候,先对这句话进行中文分词。
由于这里面有错别字,所以它切词的结果往往会有切分错误的情况。这样从字力度和词力度两方面来检测错误,整合这两种力度的疑似错误结果,然后形成错误位置的候选集。通过错误检测,找出来了(只)这里有错误,错误纠正的方式找到位置,然后去找跟词相近的,找音似或者是形似的词。
只音似的词有指、至、值、支,有这些音似的词,找到这些音似的词语之后,用相似的来替换掉只。替换掉之后,再算出语言模型计算句子的困惑度。如果算出来是智能的智,算出来是零点九,说明结果比较好,就建议用智去替换只,这样就得到最终的纠正词。
简单总结一下,输入文本之后,用切分词的方法,然后从字力度和词力度方面来检测错误,找到疑似错误的地方。再进行错误纠正,去找哪些是更可能的出现在这里的词,找到之后就优先推荐或者替换掉,这就是文本纠错的实现方法。
3、文本纠错技术的应用场景
文本纠错是对文本拼写错误进行检测和纠正的工作,有非常丰富的应用场景。输入法纠错,输入预测ASR后纠错等。
(1)写作辅助
可以应用在内容写作平台上,内嵌纠错模块。作者在写作的时候,可以帮助自动的去检查并提示错别字的情况,从而能降低因为疏忽而导致的这种错误表达,可以提升作者的文章的写作质量,给用户更好的阅读体验。
(2)公文纠错
针对公文写作的场景,可以提供字词、标点、专名,数值等的纠错,包含领导人姓名、职位、述职一致性等等内容的检查和纠错,可以用功能来辅助对公文进行审阅和校对。
(3)第三种场景搜索纠错,用户在搜索的时候,在搜索框输入搜索的内容。输入的时候经常会出现错误的情况,可以通过分析搜索查询的形式和特征,可以自动的去纠正搜索,并且提示给用户,甚至是建议,给出更符合用户需求的搜索结果。很多搜索引擎都可以做到,使用的时候可以注意一下,还可以用到对话纠错里面。
用语音识别进行对话的时候,可以把文本纠错迁到对话系统里,可以自动的去修正语音识别转文字过程中出现的错别字。这种方式可以明显提高语音识别的准确率,让产品的整体的体验更好。
有的时候用语音识别的工具的时候能感受到,语音识别开始的时候,因为同音字很多,开始的时候识别出来的可能不是很正确的同音的类似的词,它随着句子识别的完成,会纠正过来,就使用的文本纠错的技术。以上是文本纠错技术的一些应用场景。