人工智能自然语言处理介绍
自然语言处理是从20世纪50年代开始发展的,其最先在机器翻译领域得到发展。1954年的乔治敦实验(Georgetown-IBM Experiment)将60多句俄文自动翻译成英文,之后问答系统的发展也有了进展。20世纪60年代,出现了句法分析、语义分析、逻辑推理相结合的SHRDLU自然语言系统。直到20世纪80年代初期,多数自然语言处理系统都是以一套复杂的、人工制定的规则为基础形成的。
从20世纪80年代末期开始,语言处理引进了机器学习的算法,自然语言处理产生革新。近年来,深度学习技巧纷纷出炉,在自然语言处理方面获得了尖端的成果。下表列举了自然语言处理的部分范畴。
自然语言处理的部分范畴
技术名称 注释
语音识别 机器通过识别和理解过程把语音信号转变为相应的文本或命令
语音合成 通过机械的、电子的方法产生人造语音的技术
中文自动分词 使用机器自动对中文文本进行词语的切分,像英文那样使得中文句子中的词之间以空格标识
词性标注 将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理
句法分析 对句子中的词语语法功能进行分析
自然语言生成 使机器具有人一样的表达和写作能力
文本分类 机器对文本集(或其他实体)按照一定的分类体系或标准进行自动分类标记
问答系统 用准确、简洁的自然语言回答用户用自然语言提出的问题
机器翻译 利用机器将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程
在自然语言处理的研究过程中,有一些难点是需要攻克的。例如,在口语中,词与词通常是连贯的,它们之间没有边界;很多词不仅仅只有一个意思;在做语音处理时会出现口音问题;文本处理时书写不规范等。