自然语言处理NLP概述
- 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。
自然语言处理(Natural language processing,NLP)是计算机和人类语言之间的关系纽带。更具体地说,自然语言处理是计算机对自然语言的理解、分析、操纵和/或生成。计算机程序能否将一段英文文本转换成程序员友好的数据结构来描述自然语言文本的含义?不幸的是,这种数据结构的形式是否存在并没有形成共识。在解决这些基本的人工智能问题之前,计算机科学家必须解决提取描述文本信息有限方面的简单表示的简化目标。
概述自然语言处理
自然语言处理(NLP)可以被定义为人类语言的自动(或半自动)处理。“NLP”这个术语有时被用于比这更窄的范围,通常不包括信息检索,有时甚至不包括机器翻译。NLP有时还与“计算语言学”相对立,NLP被认为更适用。如今,往往首选使用替代术语,如“语言技术(Language Technology)”或“语言工程(Language Engineering)”。语言(Language)经常与演讲(Speech)(比如演讲技术和语言技术)相对照。但是我将简单地提到NLP并广义地使用这个术语。NLP本质上是多学科的:它与语言学密切相关(尽管NLP公然借鉴语言理论的程度差异很大)。
什么是自然语言处理?
NLP是计算机以一种聪明而有用的方式分析,理解和从人类语言中获取意义的一种方式。通过利用NLP,开发者可以组织和构建知识来执行自动摘要,翻译,命名实体识别,关系提取,情感分析,语音识别和话题分割等任务。NLP用于分析文本,使机器了解人的说话方式。这种人机交互使现实世界的应用,如自动文摘,情感分析,主题提取,命名实体识别,零部件,词性标注,关系提取,词干,等等。NLP通常用于文本挖掘,机器翻译和自动问答。
图1:NLP技术
NLP的重要性
早期的NLP方法涉及更基于规则的方法,在这种方法中,简单的机器学习算法被告知要在文本中查找哪些单词和短语,并在这些短语出现时给出特定的响应。但深度学习是一个更灵活,直观的方法,在这个方法中,算法学会从许多例子中识别说话者的意图,就像孩子如何学习人类语言一样。
在考虑以下两个陈述时,可以看到自然语言处理的优势:“云计算保险应该成为每个服务级别协议的一部分”和“良好的SLA确保夜间睡眠更加容易 - 即使在云端”。如果您使用国家语言处理的搜索,程序将认识到云计算是一个实体,云是云计算的缩写形式,并且SLA是服务级别协议的行业首字母缩略词。
自然语言处理的术语
这些分区与语言学的一些标准分支松散地相对应:
- 形态学(Morphology):词的结构。例如,不寻常的可以被认为是由一个前缀un-,一个词干和一个词缀-ly组成。构成是构成加上屈折词缀:拼写规则意味着我们结束而不是组成。
- 语法(Syntax):单词用于形成短语的方式。例如,它是英语语法的一部分,诸如意志之类的确定者会在名词前面出现,而且确定者对于某些单数名词是强制性的。
- 语义(Semantics):构成语义是基于语法的意义的建构(通常表示为逻辑)。这与词汇语义(即单词的含义)形成对照。
自然语言处理的应用
以下是目前使用NLP的几种常用方法:
Microsoft Word中的拼写检查功能是最基本和最知名的应用程序。
文本分析也称为情感分析,是NLP的一个关键用途。企业可以使用它来了解他们的客户感受到的情绪,并使用这些数据来改善他们的服务。
通过使用电子邮件过滤器分析流经其服务器的电子邮件,电子邮件提供商可以使用朴素贝叶斯垃圾邮件过滤来计算电子邮件基于其内容的可能性。呼叫中心代表经常听到来自客户的相同的具体投诉,问题和问题。挖掘这些数据的情绪可以产生令人难以置信的可操作的情报,可以应用于产品布局,消息传递,设计或其他一系列的用途。
Google,Bing和其他搜索系统使用NLP从文本中提取条件来填充其索引并解析搜索查询。
Google Translate将机器翻译技术应用于翻译单词,而且还用于理解句子的含义以改善翻译。
金融市场使用NLP,通过明文公告和提取相关信息的格式进行算法交易决策。例如,公司之间合并的消息可能会对交易决策产生重大影响,并且合并细节(例如,参与者,价格,谁获得谁)的速度可以被纳入到交易算法中,在数百万美元。
自然语言处理的例子
使用Summarizer自动总结一个文本块,严格的主题句子,并忽略其余的。
生成关键字话题标签文档使用LDA(隐含狄利克雷分布),它从一个确定最相关的词文件。该算法是自动标记和自动标记URL微服务的核心
基于Stanford NLP的情感分析可以用来辨别一个陈述的感觉,观点或信念,从非常消极,中立到非常积极。
参考
[1] Ann Copestake, “Natural Language Processing”, 2004, 8 Lectures, available online at: https://www.cl.cam.ac.uk/teaching/2002/NatLangProc/revised.pdf
[2] Ronan Collobert and Jason Weston, “Natural Language Processing (Almost) from Scratch”, Journal of Machine Learning Research 12 (2011) pp. 2493-2537
[3] “Top 5 Semantic Technology Trends to look for in 2017”, available online at: https://ontotext.com/top-5-semantic-technology-trends-2017/