NLP:自然语言处理技术的简介、发展历史、案例应用之详细攻略

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
文档翻译,文档翻译 1千页
文本翻译,文本翻译 100万字符
简介: NLP:自然语言处理技术的简介、发展历史、案例应用之详细攻略

4、自然语言理解的五个层次

image.png

      自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次,可以更好地体现语言本身的构成,五个层次分别是语音分析、词法分析、句法分析、语义分析和语用分析。


语音分析:要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。

词法分析:找出词汇的各个词素,从中获得语言学的信息。

句法分析:对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各自在句中的作用。

语义分析:找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。

语用分析:研究语言所存在的外界环境对语言使用者所产生的影响。


5、图灵试验判断计算机是否理解了某种自然语言


      在人工智能领域或者是语音信息处理领域中,学者们普遍认为采用图灵试验可以判断计算机是否理解了某种自然语言,具体的判别标准有以下几条:


问答:机器人能正确回答输入文本中的有关问题;

文摘生成:机器有能力生成输入文本的摘要;

释义:机器能用不同的词语和句型来复述其输入的文本;

翻译:机器具有把一种语言翻译成另一种语言的能力。


6、自然语言处理技术的发展历史

image.png



      自然语言处理是包括了计算机科学、语言学心理认知学等一系列学科的一门交叉学科,这些学科性质不同但又彼此相互交叉。最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾有大规模的研究工作,耗费了巨额费用,但人们当时显然是低估了自然语言的复杂性,语言处理的理论和技术均不成热,所以进展不大。

      近年自然语言处理在词向量(word embedding)表示、文本的(编码)encoder和decoder(反编码)技术以及大规模预训练模型(pre-trained)上的方法极大地促进了自然语言处理的研究。


1、20世纪50年代到70年代——采用基于规则的方法


      1950年图灵提出了著名的“图灵测试”,这一般被认为是自然语言处理思想的开端,20世纪50年代到70年代自然语言处理主要采用基于规则的方法,研究人员们认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,所以大量的研究员基于这个观点来进行研究,这时的自然语言处理停留在理性主义思潮阶段,以基于规则的方法为代表。但是基于规则的方法具有不可避免的缺点,首先规则不可能覆盖所有语句,其次这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。


2、20世纪70年代到21世纪初——采用基于统计的方法


      70年代以后随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,自然语言处理思潮由经验主义向理性主义过渡,基于统计的方法逐渐代替了基于规则的方法。贾里尼克和他领导的IBM华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。


3、2008年到2019年——深度学习的RNN、LSTM、GRU


      从2008年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到2013年的word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN已经是自然语言处理最常用的方法之一,GRU、LSTM等模型相继引发了一轮又一轮的热潮。


7、自然语言处理最新进展


      近年来,预训练语言模型在自然语言处理领域有了重要进展。预训练模型指的是首先在大规模无监督的语料上进行长时间的无监督或者是自监督的预先训练(pre-training),获得通用的语言建模和表示能力。之后在应用到实际任务上时对模型不需要做大的改动,只需要在原有语言表示模型上增加针对特定任务获得输出结果的输出层,并使用任务语料对模型进行少许训练即可,这一步骤被称作微调(fine tuning)。

      自 ELMo、GPT、BERT 等一系列预训练语言表示模型(Pre-trained Language Representation Model)出现以来,预训练模型在绝大多数自然语言处理任务上都展现出了远远超过传统模型的效果,受到越来越多的关注,是 NLP 领域近年来最大的突破之一,是自然语言处理领域的最重要进展。

image.png

      BERT(Bidirectional Encoder Representation from Transformer)是 Google AI于NAACL2019 提出的一个预训练语言模型。BERT 的创新点是提出了有效的无监督预训练任务,从而使得模型能够从无标注语料中获得通用的语言建模能力。BERT之后涌现了许多对其进行扩展的模型(如上图所示),包括:跨语言预训练的XLM和UDify,跨模态预训练的模型,融合知识图谱的ERNIE,将seq2seq等语言生成任务整合入BERT类模型的MASS, UniLM等。其中几个重要的进展包括:


(1)XLNet使用Transformer-XL替代了Transformer作为基础模型,拥有编码超长序列的能力。XLNet提出了一个新的预训练语言任务:Permutation Language Modeling(排列语言模型),模型将句子内的词语打乱顺序,从而使得预测当前词语时可以利用双向信息。XLNet相对BERT也使用了更多的语料。

(2)RoBERTa采用了与BERT具有相同的模型结构,同样采用了屏蔽语言模型任务进行预训练,但舍弃了 BERT中下句预测模型。此外,RoBERTa采用了更大规模的数据和更鲁棒的优化方法,从而取得了更好的表现。

(3)ALBERT模型针对BERT参数量过大难以训练的问题做了优化,一是对词向量矩阵做分解,二是在层与层之间共享参数。此外,ALBERT将下句预测模型替换为句序预测任务,即给定一些句子预测它们的排列顺序。


自然语言处理技术的案例应用


1、算法实践中常用的库


word2vec

nltk

jieba


相关文章
|
27天前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
43 4
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在自然语言处理中的创新应用
【10月更文挑战第7天】本文将深入探讨人工智能在自然语言处理领域的最新进展,揭示AI技术如何改变我们与机器的互动方式,并展示通过实际代码示例实现的具体应用。
33 1
|
15天前
|
机器学习/深度学习 存储 人工智能
大数据中自然语言处理 (NLP)
【10月更文挑战第19天】
109 60
|
1天前
|
人工智能 自然语言处理 API
探索AI在自然语言处理中的应用
【10月更文挑战第34天】本文将深入探讨人工智能(AI)在自然语言处理(NLP)领域的应用,包括语音识别、机器翻译和情感分析等方面。我们将通过代码示例展示如何使用Python和相关库进行文本处理和分析,并讨论AI在NLP中的优势和挑战。
|
8天前
|
机器学习/深度学习 自然语言处理 知识图谱
GraphRAG在自然语言处理中的应用:从问答系统到文本生成
【10月更文挑战第28天】作为一名自然语言处理(NLP)和图神经网络(GNN)的研究者,我一直在探索如何将GraphRAG(Graph Retrieval-Augmented Generation)模型应用于各种NLP任务。GraphRAG结合了图检索和序列生成技术,能够有效地处理复杂的语言理解和生成任务。本文将从个人角度出发,探讨GraphRAG在构建问答系统、文本摘要、情感分析和自动文本生成等任务中的具体方法和案例研究。
28 5
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
15 1
|
12天前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
26 1
|
24天前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
26 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习在自然语言处理中的应用与挑战
本文探讨了深度学习技术在自然语言处理(NLP)领域的应用,包括机器翻译、情感分析和文本生成等方面。同时,讨论了数据质量、模型复杂性和伦理问题等挑战,并提出了未来的研究方向和解决方案。通过综合分析,本文旨在为NLP领域的研究人员和从业者提供有价值的参考。

热门文章

最新文章

下一篇
无影云桌面