NLP随笔(四)

本文涉及的产品
文档翻译,文档翻译 1千页
语种识别,语种识别 100万字符
图片翻译,图片翻译 100张
简介: nlp技术包括基础技术和应用技术70 年代以后随着互联网的高速发展,语料库越来越丰富以及硬件更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。

nlp技术包括基础技术和应用技术

70 年代以后随着互联网的高速发展,语料库越来越丰富以及硬件更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。

从 2008 年到现在,由于深度学习在图像识别、语音识别等领域不断取得突破,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到 2013 年 word2vec,将深度学习与自然语言处理的结合推向了高潮,并且在机器翻译、问答系统、阅读理解等领域取得了一定成功。再到最近的emlo、bert等,也许正在揭开下一个篇章。

可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图

自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次,可以更好地体现语言本身的构成,五个层次分别是语音分析、词法分析、句法分析、语义分析和语用分析。

语音分析是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。

词法分析是找出词汇的各个词素,从中获得语言学的信息。

句法分析是对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各自在句中的作用。

语义分析是指运用各种机器学习方法,学习与理解一段文本所表示的语义内容。 语义分析是一个非常广的概念。

语用分析是研究语言所存在的外界环境对语言使用者所产生的影响

词法分析(lexical analysis)

词法分析包括汉语分词(word segmentation 或 tokenization)和词性标注(part-of-speech tag)等。

汉语分词:处理汉语(英文自带分词)首要工作就是要将输入的字串切分为单独的词语,这一步骤称为分词。

词性标注:词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记。比如,名词(noun)、动词(verb)等

另一方面是自然语言处理的应用技术,这些任务往往会依赖基础技术,包括文本聚类(Text Clustering)、文本分类(Text Classification)、文本摘要(Text abstract)、情感分析(sentiment analysis)、自动问答(Question Answering,QA)、机器翻译(machine translation, MT)、信息抽取(Information Extraction)、信息推荐(Information Recommendation)、信息检索(Information Retrieval,IR)等。

文本分类:文本分类任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。包括单标签分类和多标签文本分类,。

文本聚类:任务则是根据文档之间的内容或主题相似度,将文档集合划分成若干个子集,每个子集内部的文档相似度较高,而子集之间的相似度较低。

文本摘要:文本摘要任务是指通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。

情感分析:情感分析任务是指利用计算机实现对文本数据的观点、情感、态度、情绪等的分析挖掘。

自动问答:自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。

机器翻译:机器翻译是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译。被翻译的语言称为源语言(source language), 翻译到的语言称作目标语言(target language)。

信息抽取:信息抽取是指从非结构化/半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。

信息推荐:信息推荐据用户的习惯、 偏好或兴趣, 从不断到来的大规模信息中识别满足用户兴趣的信息的过程。

信息检索:信息检索是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。

目录
相关文章
|
机器学习/深度学习 存储 人工智能
NLP教程(7) - 问答系统
本文介绍 NLP 中的问答系统(Question Answering),包括 NLP 中的问答系统场景、动态记忆网络(Dynamic Memory Networks)、问答(QA)、对话、MemNN、DCN、VQA等。
1319 1
NLP教程(7) -  问答系统
|
5月前
|
自然语言处理
【自然语言处理NLP】DPCNN模型论文精读笔记
【自然语言处理NLP】DPCNN模型论文精读笔记
72 2
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
NLP基础知识
自然语言处理(NLP)是计算机科学的交叉领域,涉及语言学、计算机科学和人工智能,用于让计算机理解、生成和处理人类语言。核心任务包括文本预处理、语言模型、文本分类、信息提取和机器翻译。常用工具有NLTK、spaCy和Hugging Face Transformers。深度学习,尤其是Transformer模型,极大地推动了NLP的进步。应用场景广泛,如搜索引擎、智能助手和医疗分析。未来趋势将聚焦多模态学习、跨语言理解和情绪识别,同时追求模型的可解释性和公平性。
54 1
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理(NLP)技术入门指南
【5月更文挑战第3天】本文是自然语言处理(NLP)技术的入门指南,介绍了NLP的基本概念、关键技术和学习建议。NLP旨在实现人机自然语言交互,应用于机器翻译、文本分类等领域。核心技术包括词法分析、句法分析、语义分析及深度学习模型。入门学习需掌握基础知识,动手实践,关注前沿技术并持续学习。通过学习NLP,可为人工智能发展贡献力量。
|
机器学习/深度学习 人工智能 自然语言处理
斯坦福NLP课程 | 第15讲 - NLP文本生成任务
NLP课程第15讲回顾了NLG要点,介绍了解码算法、NLG任务及其神经网络解法,着手解决NLG评估中的棘手问题,并分析了NLG目前的趋势以及未来的可能方向。
909 1
斯坦福NLP课程 | 第15讲 - NLP文本生成任务
|
机器学习/深度学习 存储 人工智能
NLP 学习:Transformer 公开课课程大纲(11-20)
NLP 学习:Transformer 公开课课程大纲(11-20)
321 0
|
机器学习/深度学习 人工智能 自然语言处理
NLP 学习:Transformer 公开课课程大纲(21-30)
NLP 学习:Transformer 公开课课程大纲(21-30)
561 0
|
机器学习/深度学习 人工智能 自然语言处理
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
439 0
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
|
机器学习/深度学习 自然语言处理
动手学深度学习(十二) NLP循环神经网络进阶(下)
动手学深度学习(十二) NLP循环神经网络进阶(下)
136 0
动手学深度学习(十二) NLP循环神经网络进阶(下)
|
机器学习/深度学习 自然语言处理
动手学深度学习(十二) NLP循环神经网络进阶(上)
动手学深度学习(十二) NLP循环神经网络进阶(上)
210 0
动手学深度学习(十二) NLP循环神经网络进阶(上)