自然语言理解技术的介绍与应用(一)

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 自然语言理解技术的介绍与应用(一)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):自然语言理解技术的介绍与应用(一)】

课程地址https://edu.aliyun.com/course/3112108/lesson/19280

 

自然语言理解技术的介绍与应用(一)

 

课程目标:

一、 文本分类技术介绍与应用

二、 情感分析技术介绍与应用

三、 文本纠错技术介绍与应用

四、 问答系统技术介绍与应用

五、 总结

 

一、文本分类技术介绍与应用


1、文本分类技术与实现方法介绍

(1)随着信息的爆炸式增长,人工标注数据已经非常地耗时,质量低下,而且标注的时候容易受到人的主观意识的影响,所以用机器自动化的对文本进行标注就变得有意义。把重复的而且枯燥的文本标注的任务交给计算机处理,能够克服以上的问题。同时计算机标注的数据具有一致性,质量很高。文本分类技术是对文本按照一定的分类标准进行自动分类标记,文本分类是根据一个已经被标注的训练文档集合来找到文档的特征和文档类别之间的关系模型,然后再用学习到的关系模型对新的文档进行分类判断,类别判断。文本分类早期是基于知识的方法,慢慢就变成了基于统计机器学习的方法。看一下下面的流程图:

图片614.png


文本分类首先要有大拿的文本已经做了标注的,这些是训练样本,把训练样本放到学习系统里面,然后用一个分类器去训练,先得到分类器,分类器就有用了。当再输入样本的时候,分类系统就可以根据分类器判断新的样本是属于哪一个分类结果。


这种文本分类问题,它的方法可以归结为利用待分类的数据的特征和类别进行匹配,然后选择最优的匹配结果作为分类的结果,可以通过机器学习的框架来描述文本分类的问题。


(2)文本分类分为两个过程,一个是学习过程,一个是分类过程。在分类问题里面最简单的是二分类,像上面图里面也是只有两个类别。比如说垃圾邮件检测就是一个二分类的问题,邮件是垃圾邮件或者不是垃圾邮件。

2、文本分类技术的应用场景

图片615.png


文本分类是从给定的标签集合自动地给文本打标签,应用非常广泛。下面列举了三种:

(1)第一个是邮件的属性分类,比如说可以帮去判断是否为垃圾邮件,一般的邮箱服务提供商会把完成这件事,标注邮件是不是垃圾邮件,有可能垃圾邮件就自动分到垃圾邮件箱里去了。

邮件属性分类检测它的类别还能做更先进一点的事情,比如说自动邮件回复。在跨境电商的场景里面,用邮件属性分类可以去识别用户反馈的问题是什么,或者是哪一个类别,可能问的是产品质量的类别,可能问的是快递的问题,可能是产品描述的问题,可以基于问题的类别去进行自动的回复,就节省了大量的人工和人力。


(2)第二个应用场景广告内容审核,可以通过文本分类技术判断一段文本是不是广告。在有些场景里面是不允许发送广告的,还可以判断是否有灌水评论,还有一些是判断里面是否有违规的内容,这都是对文本的内容审核。


(3)第三个应用场景是新闻的分类推送,使用文本分类技术可以判断新闻的类别,新闻是属社会新闻、体育新闻、政治新闻或者是娱乐新闻等,可以判断新闻类别。推送新闻的时候,根据类别进行推送,这是文本分类技术的一些常见的应用场景。

 

二、情感分析技术介绍与应用


1、情感分析技术与实现方法介绍

(1)随着互联网的飞速发展,越来越多的互联网用户从单纯的信息的受众变成了互联网信息的制造者和参与者。在互联网中像博客、微博、评论、论坛,用户在里面可以写很多主观的文本,对某个产品或者是服务进行评价,或者是对新闻事件或者政策去发表观点。这些互联网用户,会产生带有主观性的文本,而文本是有助于制定决策。


比如潜在的消费者在购买某个商品或者是服务的时候,获取相关的评价,可以做自己决策的参考;政府部门也可以看一下公众对于新闻事件或者政策的看法来了解舆情,这些主观性的文本对于决策者去制定商业策略或者是决策都非常地重要。


而以往这种事情只能靠人工的监控分析,会耗费大量的人工成本,而且有很强的滞后性,所以用计算机做自动化的情感分析,是现在学术界和工业界的大趋势。


(2)情感分析技术又叫倾向性分析或意见挖掘,是对有情感色彩的主观文本进行分析、处理、归纳和推理,利用情感分析能力,针对带有主观描述的自然语言文本自动地判别文本的情感的正负倾向等,并给出相应的结果。


根据分析的载体不同,情感分析会涉及很多主题,包括电影评论、商业评论和新闻博客等情感分析。大多数的情感分析研究都使用机器学习方法,对情感分析研究到目前为止主要集中在两个方面,一个是识别给定的文本它的实体是主观的还是客观的,识别主观的文本的极限。文本可以化为积极和消极两类,或者是积极,或者是消极,或者是中性的分类。


情感分析的实现方法如下,首先用预标记词汇组成词典,然后用词法分析器,要去识别情感的样本,文本作为输入样本,然后把样本进行分词到字典去匹配。进行文本匹配之后,如果是匹配的,做一个判断,就提高得分,如果不匹配就降低得分,提高或者是降低得分,最后文本会有一个最终的得分,根据得分,再去判断的情感。


分类分到哪一类取决于的总得分,目前有大量的工作是致力于这种不良词法信息的有效性。对于手动标记词汇的方式,大概能有85%的准确率,是由评价文本的主观性决定的。

用这种词法分析的方式也有不足,如果字典的大小变大了,词的数量增加,它的性能就会快速下降。目前情感分析在实际的生产场景中得到越来越多的应用。

图片616.png


2、情感分析技术的应用场景

(1)首先是电子商务,情感分析最常用的领域就是电子商务,例如淘宝、京东,用户在购买一件商品之后,会发表关于商品的体验,通过分配等级和分数,网站能够为产品和商品的不同功能提供简要的描述,客户可以很容易地产生关于整个产品的建议和反馈。通过分析用户的评价,可以帮助网站提高用户的满意度,完善不到位的地方。电子商务就是要不断的用产品的反馈,然后用情感的分析来进行产品的优化。


(2)第二个是舆情分析,不管是政府还是公司,都需要不断地监控社会对自身的舆论态度,来自消费者或者任何第三方机构的正面或者负面的新闻报道,都会影响到公司的发展。

相对于消费者,公司会更看重品牌声誉的管理。现在由于互联网的放大效应,任何一点的小事都可能发酵为大的舆论风暴,及时的感知舆情,进行情感分析,有助于及时的公关,正确的维护好公司的品牌。


(3)第三个是市场分析,在市场分析领域里,用情感分析可以帮助企业实时地获得消费者的意见,不仅仅是对自己的产品意见,可能也有对竞争对手的产品的意见,可能也有消费者对于新产品的呼声,能用情感分析这种方式,可以准确的分析产品和服务的市场反响,来制定营销策略。


(4)最后一个是用户维护功能,用情感分析技术去提取用户的意见,去从用户的意见里面来确认产品的功能需求。以上是情感分析技术的一些应用场景。

图片617.png

 

三、文本纠错技术介绍与应用


1、文本纠错技术实现方法介绍

文本纠错技术可能都见过,比如说用word去编辑文本的时候,有些情况下字符的底部会出现波浪线的符号,比如说“自然语言处理是有趣地科学”,如果是这样的话,下面有波浪线,这是因为系统检测到文本存在错误,或者是有一些问题的时候,字符的底部会出现波浪号提示这里有问题,这种技术用到的就是文本纠错技术,顾名思义文本纠错技术就是将文本中有错误的地方进行纠正。

图片618.png


文本中有的错误类型,比如有错别字、缺失字、冗余字,有词语搭配的错误或者是语法的错误等。目前有一些开源的文本纠错工具,但是工具可能能满足一些场景的文本纠错的需求,但是距离真正的应用还有较大的差距,所以有的时候有必要自己构建一个文本纠错系统。

文本纠错用人工智能去做,它比人类会更有优势,比如说它能够评估和权衡相关的因素,比人类要更快要更准确地能识别出来。


特别是人类检查文本的时候会有一些盲区,就是去阅读的时候,看到人类会下意识的纠错,阅读的时候可能觉得查不到文字的错误。比如说读自然语言处理技术是人工智能的一个重要分支,如果读的快一点,发现没有么明显,这种情况下,就最好就用文本纠错系统辅助去检查一下。


2、文本纠错技术应用的实现方法

中文的文本纠错通常包含两个步骤,第一步是错误检测,第二步是错误纠正。输入文本(自然语言处理技术是人工只能的一个重要分支),然后进行错误检测,错误检测的时候,先对这句话进行中文分词。

由于这里面有错别字,所以它切词的结果往往会有切分错误的情况。这样从字力度和词力度两方面来检测错误,整合这两种力度的疑似错误结果,然后形成错误位置的候选集。通过错误检测,找出来了(只)这里有错误,错误纠正的方式找到位置,然后去找跟词相近的,找音似或者是形似的词。

只音似的词有指、至、值、支,有这些音似的词,找到这些音似的词语之后,用相似的来替换掉只。替换掉之后,再算出语言模型计算句子的困惑度。如果算出来是智能的智,算出来是零点九,说明结果比较好,就建议用智去替换只,这样就得到最终的纠正词。

图片619.png


简单总结一下,输入文本之后,用切分词的方法,然后从字力度和词力度方面来检测错误,找到疑似错误的地方。再进行错误纠正,去找哪些是更可能的出现在这里的词,找到之后就优先推荐或者替换掉,这就是文本纠错的实现方法。


3、文本纠错技术的应用场景

文本纠错是对文本拼写错误进行检测和纠正的工作,有非常丰富的应用场景。输入法纠错,输入预测ASR后纠错等。

(1)写作辅助

可以应用在内容写作平台上,内嵌纠错模块。作者在写作的时候,可以帮助自动的去检查并提示错别字的情况,从而能降低因为疏忽而导致的这种错误表达,可以提升作者的文章的写作质量,给用户更好的阅读体验。


(2)公文纠错

针对公文写作的场景,可以提供字词、标点、专名,数值等的纠错,包含领导人姓名、职位、述职一致性等等内容的检查和纠错,可以用功能来辅助对公文进行审阅和校对。


(3)第三种场景搜索纠错,用户在搜索的时候,在搜索框输入搜索的内容。输入的时候经常会出现错误的情况,可以通过分析搜索查询的形式和特征,可以自动的去纠正搜索,并且提示给用户,甚至是建议,给出更符合用户需求的搜索结果。很多搜索引擎都可以做到,使用的时候可以注意一下,还可以用到对话纠错里面。


用语音识别进行对话的时候,可以把文本纠错迁到对话系统里,可以自动的去修正语音识别转文字过程中出现的错别字。这种方式可以明显提高语音识别的准确率,让产品的整体的体验更好。

有的时候用语音识别的工具的时候能感受到,语音识别开始的时候,因为同音字很多,开始的时候识别出来的可能不是很正确的同音的类似的词,它随着句子识别的完成,会纠正过来,就使用的文本纠错的技术。以上是文本纠错技术的一些应用场景。

图片620.png

相关文章
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】TF-IDF算法在人工智能方面的应用,附带代码
TF-IDF算法在人工智能领域,特别是自然语言处理(NLP)和信息检索中,被广泛用于特征提取和文本表示。以下是一个使用Python的scikit-learn库实现TF-IDF算法的简单示例,并展示如何将其应用于文本数据。
115 65
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
18 8
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】探讨最新的深度学习算法、模型创新以及在图像识别、自然语言处理等领域的应用进展
深度学习作为人工智能领域的重要分支,近年来在算法、模型以及应用领域都取得了显著的进展。以下将探讨最新的深度学习算法与模型创新,以及它们在图像识别、自然语言处理(NLP)等领域的应用进展。
14 6
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】自然语言处理NLP概述及应用
自然语言处理(Natural Language Processing,简称NLP)是一门集计算机科学、人工智能以及语言学于一体的交叉学科,致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支,旨在缩小人与机器之间的交流障碍,使得机器能够更有效地识别并响应人类的自然语言指令或内容。
9 4
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】GPT-5技术突破预测:引领自然语言处理革新的里程碑
随着科技的飞速发展,人工智能(AI)领域正迎来一场前所未有的革命。近日,OpenAI首席技术官米拉·穆拉蒂在采访中透露,新一代大语言模型GPT-5将在一年半后发布,这一消息无疑在科技界掀起了巨大的波澜。GPT-5的即将登场,预示着AI技术将迈入一个新的时代,我们的工作和日常生活也将随之发生深刻的变化。 GPT-5的发布,将为我们带来前所未有的智能体验。穆拉蒂将其与高中生到博士生的成长相比,可见其在智能水平上的巨大飞跃。GPT-5将具备更高的智能水平,能够处理更为复杂、精细的任务,如高级数据分析、自动化编程、智能内容生成等。这将极大地提高各行各业的工作效率,推动社会生产力的快速发展。
13 4
|
1天前
|
自然语言处理 监控 机器人
自然语言处理中的语义理解和生成技术
【8月更文第18天】自然语言处理(NLP)是计算机科学的一个重要分支,其目标是使计算机能够理解、解析和生成人类语言。近年来,基于Transformer架构的预训练模型(如BERT、GPT系列)已经极大地推动了NLP的发展。本文将探讨这些模型在对话系统、文本生成、情感分析等领域的应用,并讨论相关技术挑战。
8 1
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
【8月更文挑战第18天】随着人工智能领域的飞速发展,深度学习技术已成为推动自然语言处理(NLP)创新的重要力量。从语音识别到机器翻译,深度学习模型不断突破传统算法的局限,实现了前所未有的性能提升。本文将深入探讨深度学习如何在NLP领域实现技术革新,分析其面临的主要挑战,并展望未来发展趋势。
|
5天前
|
自然语言处理 语音技术
自然语言处理 Paddle NLP - 机器同传技术及应用-理论
自然语言处理 Paddle NLP - 机器同传技术及应用-理论
11 0
|
5天前
|
机器学习/深度学习 自然语言处理 算法
自然语言处理 Paddle NLP - 文本翻译技术及应用-理论
自然语言处理 Paddle NLP - 文本翻译技术及应用-理论
4 0
|
5天前
|
自然语言处理 算法 数据挖掘
自然语言处理 Paddle NLP - 情感分析技术及应用SKEP-实践
自然语言处理 Paddle NLP - 情感分析技术及应用SKEP-实践
8 0