带你读《自然语言处理的认知方法》之二:人类关联规范能否评估机器制造的关联列表

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。

点击查看第一章
点击查看第三章

第2章 人类关联规范能否评估机器制造的关联列表

本章介绍了由心理语言学实验创建的单词关联规范,与由操作文本语料库的算法所生成的关联列表之间的比较。我们比较了Church-Hanks算法生成的列表和LSA算法生成的列表。对于那些自动生成的列表如何反映人类关联规范中存在的语义依赖关系,本章提出了一种观点,并指出应该考虑对在关联列表中观察到的人类关联机制进行更深入的分析。

2.1 引言

三十多年来,人们普遍认为,根据从大型文本集合中检索到的单词共现(word coocurrence)可以定义单词的词汇含义。尽管有一些提议认为从文本[RAP 02,WET 05]中检索到的单词共现反映了文本的连续性,但也存在一些提议,他们认为,LSA之类的算法无法区分语料库无关的语义依赖性(语义原型的元素)共现和基于语料库相关的事实依赖性共现[WAN 05,WAN 08]。为了证明这一假设,我们将人类关联列表与通过三种不同算法从文本中检索的关联列表进行比较,即Church-Hanks[CHU 90]算法、潜在语义分析(LSA)算法[DEE 90]和潜在狄利克雷分配(LDA)算法[BLE 03]。
LSA是一个词/文档矩阵秩削减算法,它从文本内提取单词共现。结果表明,语料库中的每个单词都与所有共现单词及出现的所有文本相关。这为关联文本比较奠定了基础。LSA算法的应用性是各类研究的主题,其范围从文本内容比较[DEE 90]到人类关联规范分析[ORT 12]。然而,LSA算法对研究机器制造的关联(machine-made association)的语言意义方面仍然没有兴趣。
很明显,人类关联规范和机器制造(machine-created)的关联列表的比较应该是本研究的基础。我们可以找到一些基于这一比较的初步研究:[WAN 05,WET 05,WAN 08],其结果表明该问题需要进一步调查。值得注意的是,提到的所有类型的研究都使用了人类关联拓扑(human association topology)的关联强度来进行比较。关键在于,如果我们比较不同语言关联规范中特定刺激-响应(stimulus-response)对的关联强度,我们会发现关联强度不同。例如,“黄油”是爱丁堡关联词库(EAT)中对激励“面包”最强的响应(0.54),但在下面描述的波兰关联规范中,chleb(面包)- maslo(黄油)的关联并不是最强的(0.075)。另外,我们可以观察到关联强度可能无法区分语义和非语义关联。例如,屋顶(0.04)、杰克(0.02)和墙(0.01)是EAT中对激励“房子”的响应。因此,我们决定测试机器制造的关联列表,来对比不包含关联强度的人类关联规范。作为比较,我们使用波兰语使用者在自由词关联实验[GAT 14]中制定的规范,以下称为作者的实验。因为LSA和LDA都使用整个文本来生成单词关联,所以我们还测试了人类关联,对比由Church-Hanks算法生成的关联列表[CHU 90],该算法在一个类似句子的文本窗口上运行。我们还使用了三种不同的文本语料库。

2.2 人类语义关联

2.2.1 单词关联测试

在早期,人们注意到人类思维中的词语是相互联系的。美国临床心理学家G. Kent和A.J.Rosanoff[KEN 10]认为,分析单词之间的联系具有诊断价值。在1910年,二人创立并进行了一项单词自由关联测试。他们在1000名具有不同教育背景和职业的人身上进行了研究,要求他们的研究对象通过激励词给出他们脑海中浮现的第一个词。该研究包括100个激励词(主要是名词和形容词)。Kent-Rosanoff词汇表被翻译成几种语言,在这些语言中这个实验被重复进行,因此可以进行比较研究。在[PAL 64]、[POS 70]、[KIS 73]、[MOS 96]、[NEL 98]中继续进行单词关联研究,结果的可重复性允许研究对象的数量减少,然而同时增加了要使用的激励单词的数量,如500个孩子和1000个成人研究对象和200个单词[PAL 64]或100个研究对象和8400个单词[KIS 73]。在波兰也开展了关于单词自由关联的研究[KUR 67],其结果是下述实验的基础。
计算语言学也参与了关于单词自由关联的研究,尽管有时这些实验没有采用心理学家在进行实验时使用的苛刻条件。例如,那些允许对单个激励词提供几个响应可能性的实验[SCH 12]或那些使用单词对作为激励的实验[RAP 08]。
存在一些基于文本语料库生成关联列表的算法。然而,自动生成的关联只能相当勉强地与心理语言学实验的结果进行比较。不过这样的情况正在发生变化;Rapp的结果[RAP 02]真的令人鼓舞。
最后,关联规范对于不同的任务是有用的,例如信息提取[BOR 09]或字典扩展[SIN 04,BUD 06]。

2.2.2 作者的实验

雅盖隆大学和AGH科技大学大约有900名学生参加了本章所述的自由单词关联测试。测试中采用了波兰语版本的Kent-Rosanoff激励单词列表,这个版本以前是由I. Kurcz使用的[KUR 67]。在初步分析之后,我们确定将Kent-Rosanoff列表的每个单词(在语法上来说是名词)以及在Kurcz实验中获得的每个名词的五个最常见的单词关联[KUR 67]用作激励词。如果给定的关联词出现在不同的词上,例如,白色(white)对于医生(doctor)、奶酪(cheese)和羊(sheep),则这个词作为激励在我们的实验中只出现一次。在波兰语版本中,由此产生的激励列表包含来自Kent-Rosanoff列表的60个单词,以及代表那些最常出现在Kurcz研究中的那些关联(响应)的260个单词。因此,它并不是45年前进行的实验的精确重复。
我们对实验条件和分析结果的方法进行了修正。该实验借助于计算机系统进行,计算机系统是基于该实验的要求而创建的。该系统呈现一个激励列表,然后将关联存储在数据库中。每个参与者的计算机屏幕上都显示了说明,并由实验人员大声朗读。在阅读说明之后实验开始,每个参与者的计算机屏幕上出现一个激励词,然后他们写下想到的第一个自由关联词—只能写一个。一旦参与者写下他们的关联词(或者用完给他写下关联词的时间),屏幕上就会出现下一个激励词,直到实验结束。所有参与者的激励词数量及其顺序都是相同的。
结果,我们获得了260个关联列表,其中包含16?000多个关联词。从实验中得到的关联列表将用于评估算法生成的关联列表。

2.2.3 人类关联拓扑

在本章中,根据词汇表的排列,比较了来自不同来源的关联。然而,这并没有反映出人类关联的复杂结构。这些可以表示为加权图,其中节点中有特定的词,顶点中有关联。然后可以通过从一个特定激励(单词)开始,并在距离该中心激励一定距离处切断网络,将该图细分为子网。这些子网可以作为一个词的特定含义的代表。最强的关联总是与它们是双向的这一事实相关。但是,如果我们查看每对连接的单词以找到连接的含义,我们会看到连接的含义可能不同,例如家庭-母亲(home-mother)表示家庭是一个与母亲有特别联系的地方,而不同于家庭-屋顶(home-roof),表示屋顶是建筑物的一部分。在分析了所有单词对之后,我们可以发现它们中的一些以相同的方式连接激励词,例如,父母(parents)和家庭(family)按照与母亲(mother)相同的原则连接家庭(home),烟囱(chimney)、墙壁(wall)以及屋顶(roof)是建筑物的一部分。这一发现表明,激励词的词义是在一个关联网络中组织的子网。我们展示其中两个来说明这种现象。图2-1显示了dom(“home”,作为家庭居住的地方)含义的子网,图2-2显示了dom(“home”,作为建筑物)含义的子网。

image.png

图2-1中显示了单词之间的关系:dom和rodzinny(家庭;形容词)、stól(桌子)、mama(mum,母亲)、matka(mother,母亲)、obiad(晚餐)、swieta(假期)、rodzice(父母)和rodzina(家庭)。
图2-2中显示了单词之间的关系:dom和komin(烟囱)、duzy(大的)、budynek(建筑)、dach(屋顶)、sciany(墙壁)、chata(茅屋)、wies(村庄)、ogród(花园)、osiedle(地产)和miasto(城市)。
显然,两个子网都是手动识别的,很难相信通过使用仅在网络上运行的算法可以自动提取这些子网[GAT 16]。然后,我们将把特定激励的所有关联视为一个列表,忽略关联的含义。接着,我们可以区分语义上有效的关联,将波兰语关联列表与自由单词关联实验中获得的英语关联进行比较。

2.2.4 人类关联具有可比性

我们将从我们的实验得出的波兰语列表与源自爱丁堡关联词库(EAT)的语义等效英语列表进行比较。为了说明这个问题,我们选择了一个含糊不清的波兰语单词dom,它对应英语单词home和house。这些列表将呈现与其基本激励相关联的词,并根据其关联强度排序。由于响应的数量不同(home和house为95,dom为540),我们将根据其上发生的词的等级使用更加定性的相似性度量,而不是直接比较关联强度。该列表测量LMw(l1, l2),给定两个单词列表l1和l2以及一个比较窗口,其将等于从列表的开头获取的w个单词的窗口中与l1和l2匹配的单词的量。
为了建立一些基本的预期相似性水平,我们将比较在我们的实验中获得的激励词dom的列表,其含义涵盖了英语单词home和house。首先,每个波兰语关联单词都被仔细翻译成英语,然后列表会自动查找相同的单词,如表2-1所示。由于单词在比较列表上的排名可能不同,因此表2-2包含了匹配两个列表中的单词所需的窗口大小。

image.png
image.png

列表可以分别比较,但考虑到dom的模糊性,我们可以将dom的关联列表与来源于EAT的home和house列表的散布关联列表进行比较(即列表的组成为:与home相关的第一个单词,接着是与house相关的第一个单词,然后是与home相关的第二个单词,等等)。
原始列表,即用于比较的人类关联列表,是按响应频率排序的与激励词相关联的词的列表。不幸的是,我们无法通过频率或计算的关联强度自动区分与激励词产生语义关系的词,例如,在与单词table相关联的列表中,语义上不相关的cloth基本上比legs和leg出现得更频繁,其与表[PAL 64]产生“部分”关系。其中所描述的观察与语言无关。所提出的比较方法是从结果列表中语言特定的语义关联中截断的,例如,在EAT上最常见的home-house和house-home,以及所有非语义关联,例如home-office或house-Jack。每个结果列表由在语义上与激励单词相关的单词组成。换句话说,人类关联列表的比较将自动提取一个语义关联的子列表。

2.3 算法效率比较

2.3.1 语料库

为了将关联列表与LSA列表进行比较,我们准备了三个不同的语料库来训练算法。第一个语料库由波兰新闻社的51574份新闻稿组成,单词个数超过290万。这个语料库代表了对现实的一个非常宽泛的描述,但在某种程度上可以被视为只局限于该语言的一个更正式的子集。该语料库将被称为PAP。
第二个语料库是波兰国家语料库[PRZ 11]的一个片段,有3363个独立文件,单词个数超过86万。该语料库在语言词典中具有代表性;然而,其中出现的文本是相对随机的,在某种意义上说,它们不是按照主题分组或遵循一些更深层次的语义结构。该语料库将被称为NCP。
最后一个语料库由博勒斯·普鲁斯(Boles?aw Prus)的10部短篇小说和一部长篇小说《Lalka》(《玩偶》)组成,博勒斯·普鲁斯是19世纪晚期的一位小说家,他用的是现代版本的波兰语,类似于当今用的版本。这些文本分为10?346段,超过了30万个单词。这个语料库背后的基本原理是尝试利用如dom这样的基本概念来建模一些历史上根深蒂固的语义关联。该语料库将被称为PRUS。
所有语料库都是使用基于字典的方法进行词形还原[KOR 12]。

2.3.2 LSA源关联列表

潜在语义分析(LSA)是一种经典的工具,通过降维来自动提取文档间的相似性。术语-文档矩阵填充有与特定文档中术语的重要性相对应的权重(在我们的实例中为术语-频率/反文档频率),然后通过奇异值分解映射到称为概念空间的较低维空间。
形式上,维度为n×m(n个术语和m个文档)的术语-文档矩阵X可以通过奇异值分解,分解为正交矩阵U和V、对角矩阵Σ:

image.png

这又可以通过较小维度空间中X的秩k近似来表示(Σ变为一个k×k矩阵)。我们在实验中使用了一个任意秩150:

image.png

此表示通常用于比较此新空间中的文档,但由于问题是对称的,因此可用于比较单词。维度为n×k的Uk矩阵表示新k维概念空间中的单词模型。因此,我们可以通过计算每个单词表示之间的余弦距离来比较它们的相对相似性。
如上所述,LSA源关联列表由基于每个树语料库构建的模型中给定单词的有序列表(通过余弦距离)组成。
潜在语义分析[LAN 08]应用中的关键因素是确定k,即用于将数据投影到简化的k维概念空间的概念的数量。由于该参数是语料库,并且在某种程度上是特定应用的特征,它已经通过实验确定。对于每个语料库(PRUS、NCP和PAP),都已经建立了一个LSA模型,其维度范围在25~400之间,增量为25。对于每个语料库,维度都被选为在1000个单词的窗口中,从10个关联列表中给出最高匹配单词总数。如3.4节所示,最终结果对应于PRUS和NCP的75维以及PAP的300维。计算是使用gensim主题建模库进行的。

2.3.3 LDA源列表

潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是一种用于主题提取的机制[BLE 03]。它把文档视为单词或主题的概率分布集。这些主题没有明确定义,因为它们是根据其中包含的单词的共现可能性来确定的。
为了获得与给定单词wn相关联的单词排序列表,我们采用由LDA生成的主题集,然后对于包含的每个单词,我们将本主题中给定单词wn的权重乘以每个主题的权重之和。
形式上,对于N个主题,其中wij表示主题j中单词i的权重,单词i的权重排名计算如下:

image.png

该表示使我们可以根据它们在文档中共现的概率,创建与给定单词wn相关联的单词排序列表。

2.3.4 基于关联比率的列表

为了评估相对先进的潜在语义分析机制的质量,我们将其在[CHU 90]中提出的关联比率的效率与已处理数据的性质有关的一些细微变化进行比较。对于两个单词x和y,它们的关联比率fw(x, y)将被定义为在w个单词的窗口中y跟随或在x之前的次数。原始关联比率是不对称的,它仅考虑参数x之后的单词y。然而,对于用在句子中没有严格的单词排序的语言(在我们的例子中是波兰语)编写的文本而言,这种方法将会失败,其中句法信息是通过丰富的词形变化而不是通过单词排序来表示的。对于w,我们将使用与Church和Hanks[CHU 90]中相同的值,即5。与LSA相比,这种方法可以看作是简单的,虽然如此,如结果所示,它仍然是有用的。

2.3.5 列表比较

首先,我们必须将从三个语料库中自动获得的单词dom(home/hose)的列表与参考列表进行比较,后者即在作者的实验中从人类对象获得的人类关联列表。该比较将用LMw(l1, l2)表示,其中l1是人类关联列表,l2是通过LSA/LDA相似性获得的列表,以及如上所述的关联比率f5。在该比较中,我们将三个不同大小的窗口应用于参考列表。
首先,我们将把151个字长的完整人类关联列表与上述算法生成的列表进行比较。我们将自动生成的列表的长度任意限制为1000个单词。如表2-3所示。

image.png

这可能看起来比较冗余,因为它还包含对我们来说兴趣较低的随机关联—通过EAT获得的列表和作者的列表的比较仅包含15个单词。
因此,我们将人类关联列表限制为仅前75个单词—这也是从EAT获得home和house组合列表所需的长度。如表2-4所示。

image.png

可以看出,仅当我们使用大的窗口时,自动生成的关联列表才匹配人类关联列表的某些部分。其次,我们可以观察到Church-Hanks算法似乎生成了一个与人类派生列表更具可比性的列表。
EAT中较短的单词列表(house)包含42个单词。40个单词是窗口大小,其应用于作者的列表,允许我们找到EAT home/house组合列表和作者的dom实验列表共有的所有元素。因此,我们将使用40个单词大小的窗口进行比较。如表2-5所示。

image.png

正如我们所看到的,这个窗口大小似乎是最佳的,因为与完整列表相比,它大大减少了两种算法的非语义关联。
最后,我们必须测试针对组合的人工关联列表自动生成的列表,即表2-2中列出的包含在作者列表和EAT列表中的单词列表。如表2-6所示。

image.png

结果显示出类似于完整人类关联列表测试期间观察到的趋势。首先,窗口大小会影响匹配数量。第二个观察也是类似的:Church-Hanks算法生成的列表可更好地匹配人类关联列表—它在语义上与激励相关的15个单词中的10个或12个匹配。
为了了解更多信息,我们重复了对更广泛词汇的比较。我们选择了八个词:chleb(面包)、choroba(疾病)、swiatlo(光)、glowa(头)、ksiezyc(月亮)、ptak(胡须)、woda(水)和zolnierz(士兵)。然后,我们使用所描述的方法来获得作者的实验和EAT的组合列表。如表2-7所示。

image.png

表2-8包含类似的比较,但不会将关联列表限制为两个实验中都包含的单词。

image.png
image.png

可以看出,无论人类列表的大小如何,对应于f5算法的列中的值明显优于相应的LSA值。

2.4 结论

如果查看结果,我们可能会发现它们通常与Wandmacher[WAN 05]和[WAN 08]的相关研究结果相当。一般而言,LSA和LDA算法都会生成一个关联列表,该列表仅包含人类关联规范中存在的词法关系的一小部分。令人惊讶的是,Church-Hanks算法做得更好,这表明应该更仔细地研究机器制造的关联如何与人类关联规范相关联的问题。第一个建议可能来自[WET 05]—我们必须更多地了解人类关联规范与文本之间的关系,以寻找比简单列表比较更合适的方法。我们认为,如果人类词典编纂者使用Church-Hanks算法从文本中检索的上下文来选择那些定义词义的语境,那么由三个比较算法生成的关联列表应该通过能够评估两个共现词的语义相关性的过程来过滤,或者我们将寻找一种新的共现选择方法。
第二个建议来自对人类关联列表的分析。众所周知,这样一个列表由响应组成,这些响应在语义上与激励相关,反映了语用依赖性和所谓的“铿锵响应”。但在这组语义相关的响应中,我们可以找到更频繁的直接关联,即,例如那些遵循单一语义关系的词,如“整体-部分”:房屋-墙壁(house-wall),还有不是那么频繁的间接关联,如“羊肉-羊毛”(mutton-wool,baranina-rogi),必须通过一系列语义关系来解释,在我们的示例“源”关系中,即公羊是羊肉的来源,接着是“整体-部分”关系,即角是公羊的一部分;或者关联:羊肉-羊毛(mutton-wool,baranina-welna),由“来源”解释关系,即公羊是羊肉的来源,其次是“整体-部分”关系,fleece是公羊的一部分,其后是“来源”关系,即fleece是wool的来源(wool是处理后的羊毛,fleece是处理前的羊毛—译者注)。这些关联链表明一些关联是基于语义网络的,这可能形成解释间接关联的路径。人类关联可以形成网络[KIS 73],并且可以根据关联网络测试机器关联机制,认识到这一点将是非常有趣的。

2.5 参考文献

image.png
image.png
image.png
image.png

相关文章
|
8月前
|
自然语言处理 PyTorch 算法框架/工具
自然语言生成任务中的5种采样方法介绍和Pytorch代码实现
在自然语言生成任务(NLG)中,采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。
289 0
|
机器学习/深度学习 人工智能 自然语言处理
NLP文本生成全解析:从传统方法到预训练完整介绍
NLP文本生成全解析:从传统方法到预训练完整介绍
227 0
|
3月前
|
机器学习/深度学习 自然语言处理 数据可视化
【NLP自然语言处理】文本张量表示方法
【NLP自然语言处理】文本张量表示方法
|
3月前
|
人工智能 自然语言处理 搜索推荐
【NLP自然语言处理】文本处理的基本方法
【NLP自然语言处理】文本处理的基本方法
|
5月前
|
自然语言处理 语音技术
自然语言处理 Paddle NLP - 机器同传技术及应用-理论
自然语言处理 Paddle NLP - 机器同传技术及应用-理论
42 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理(NLP)是人工智能和语言学的一个交叉领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理(NLP)是人工智能和语言学的一个交叉领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的前沿技术和应用:从自然语言处理到机器视觉
深度学习作为人工智能的核心技术,近年来得到了广泛的关注和应用。除了在语音识别、自然语言处理等领域有不俗表现外,深度学习在机器视觉方面也取得了很多进展。本文将介绍深度学习的前沿技术和应用,包括自然语言处理、图像识别和目标检测等。
|
8月前
|
机器学习/深度学习 存储 数据采集
【Python自然语言处理】使用SVM、随机森林法、梯度法等多种方法对病人罹患癌症预测实战(超详细 附源码)
【Python自然语言处理】使用SVM、随机森林法、梯度法等多种方法对病人罹患癌症预测实战(超详细 附源码)
114 0
|
机器学习/深度学习 人工智能 自然语言处理
资源受限如何提高模型效率?一文梳理NLP高效方法
资源受限如何提高模型效率?一文梳理NLP高效方法
324 0
|
机器学习/深度学习 人工智能 自然语言处理
Google探索全新NLU任务「自然语言评估」,正式面试前让AI帮你热个身!
Google探索全新NLU任务「自然语言评估」,正式面试前让AI帮你热个身!
159 0

热门文章

最新文章