面向机器学习的自然语言标注1.3 语言数据和机器学习

简介:

1.3 语言数据和机器学习


我们已经介绍了语言标注方法及其语言数据标注格式的例子,接下来将描述基于这些标注语料库的计算框架,即机器学习。机器学习是人工智能的一个分支,研究如何根据经验和已有数据学习和改善性能的算法。它们学习(或生成)一个函数,将具体的输入数据映射为想要的输出。就我们的目标而言,机器学习算法处理的“数据”是自然语言,最常见的格式是文本,更典型的是标注突显具体特征的标签,这些特征与学习任务相关。正如我们将要看到的,前面所讨论的标注为机器学习流程(训练阶段)提供了丰富的输入数据。

当在自然语言处理中使用标注数据集进行工作时,通常有3种类型的ML算法:

监督学习

监督学习是指任何通过生成一个函数将输入映射到一个预先设定的标签集合(想要的输出)的技术。标签通常是元数据标签,由人通过标注语料库的方式提供,其目的是用于机器学习中的训练过程。

无监督学习

无监督学习是指任何尝试从未标注数据输入集合中发现结构的技术。

半监督学习

半监督学习是指任何通过生成一个函数从已标注数据和未标注数据的输入进行映射的技术,是监督学习和无监督学习的结合。

表1-4列出了机器学习算法的概览以及经常使用这些机器学习算法的一些标注任务。我们将在第7章详细讨论为什么要用这些算法处理不同的任务。

表1-4:标注任务和与之相伴的机器学习算法

算法 任务

聚类 题材分类、垃圾邮件标注

决策树 语义类型或本体类别标注、指代消解

朴素贝叶斯 情感分类、语义类型或本体类别标注

最大熵(MaxEnt) 情感分类、语义类型或本体类别标注

结构化模式归纳(HMM、CRF等) 词性标注、情感分类、词义消歧

你可能会注意到有些任务可以使用多种算法。这是因为不同方法已经成功地用于多个标注任务,而且不同的算法可能会更加有效或效果更差,这取决于你自己语料库中可以使用的相关特征。为了对表中所列的算法有一个初步的认识,本节下面将对主要类别的机器学习方法予以概要介绍。

1.3.1 分类

分类(classification)是为数据集中的单个实体指派类别标签。例如,为了区分电子邮箱中的邮件是垃圾邮件还是非垃圾邮件,一个称为分类器的算法将在一组已标注数据上进行训练。在该已标注数据中,每一个邮件被赋予[+spam]或[-spam]的标签。某些特定(已知)单词或短语的出现有助于识别一个垃圾邮件。本质上,这些词将被视为特征,分类器将用它们来对垃圾邮件的正例以及非垃圾邮件的正例进行对比并建模。另一个分类的例子是根据已知症状和其他属性对疾病进行诊断。此时我们将根据来自病历或其他文档的具体特征,识别病人是否罹患特定的疾病A,并在该病历上标注[+disease-A]或[-disease-A]。这些特征可能包括血压、体重、性别、年龄、症状等。用于解决这些分类任务的最常用算法是最大熵(Maximum Entropy,MaxEnt)、朴素贝叶斯、决策树和支持向量机(Support Vector Machine,SVM)。

1.3.2 聚类

聚类是指无需任何标注或训练从输入数据中寻找自然分组和模式的机器学习算法。该类问题通常被视为无监督学习任务,要么数据集合没有标签,要么标签在聚类过程中被忽略。形成的每个类的成员“在某些方面相似”,而不同类的成员“不相似”。常用的聚类算法包括k均值(k-mean)、层次聚类(hierarchical clustering)、核主成分分析(Kernel Principle Component Analysis)和模糊C均值(Fuzzy C-Means, FCM)。

1.3.3 结构化模式归纳

结构化模式归纳不仅要学习单个实体的标签或类别,还要学习标签序列或标签项之间的其他结构化依存关系。例如,在语音信号中标签序列可能是音素流(在语音识别中);对应于句法单元(短语)的句子中的词性序列;电话交谈中的对话序列;或者诸如句法分析、指代消解或语法归纳之类的任务中的步骤。用于这些问题的算法包括隐马尔科夫模型(HMM)、条件随机场(Conditional Random Field, CRF)和最大熵马尔科夫模型(Maximum Entropy Markov Model, MEMM)。

我们将在第7章中更加深入地详细讨论这些机器学习方法。

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 并行计算
【机器学习】Transformer:自然语言处理的巅峰之作
【机器学习】Transformer:自然语言处理的巅峰之作
98 0
|
1月前
|
机器学习/深度学习 数据采集 存储
【机器学习】机器学习流程之收集数据
【机器学习】机器学习流程之收集数据
49 1
|
1月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习中的自然语言处理技术
【2月更文挑战第16天】 在数字化和智能化的浪潮中,自然语言处理(NLP)技术已成为连接人类与机器沟通的重要桥梁。本文深入探讨了机器学习在自然语言处理中的应用,包括最新的模型架构、算法优化技巧及实际场景中的挑战和解决方案。通过逻辑严密的分析,我们将揭示如何有效利用机器学习提升NLP系统的性能,同时对未来发展趋势进行预测。
23 0
|
1月前
|
机器学习/深度学习 数据采集 传感器
机器学习开发流程和用到的数据介绍
机器学习开发流程和用到的数据介绍
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【2月更文挑战第31天】 随着人工智能的飞速发展,自然语言处理(NLP)技术在机器学习领域扮演着越来越重要的角色。本文旨在深入探讨NLP的关键技术,包括语言模型、词嵌入和深度学习方法,并分析这些技术如何相互协作,以实现更高效的文本分析和理解。通过案例研究和最新研究成果的介绍,我们展示了NLP在实际应用中的强大潜力,以及它如何推动人机交互和信息检索系统的革新。
20 0
|
17天前
|
人工智能 自然语言处理
自然语言处理:电脑如何理解我们的语言?
自然语言处理:电脑如何理解我们的语言?
22 1
|
2天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
22 1
|
8天前
|
存储 机器学习/深度学习 自然语言处理
R语言自然语言处理(NLP):情感分析新闻文本数据
R语言自然语言处理(NLP):情感分析新闻文本数据
21 0
|
1月前
|
机器学习/深度学习 自然语言处理 并行计算
【机器学习】“注目未来:自注意力机制的巧妙设计引领自然语言处理新潮流“
【机器学习】“注目未来:自注意力机制的巧妙设计引领自然语言处理新潮流“
38 0
|
1月前
|
机器学习/深度学习 自然语言处理 算法
在NLP中,什么是词性标注?
【2月更文挑战第13天】【2月更文挑战第37篇】在NLP中,什么是词性标注?

热门文章

最新文章