带你读《自然语言处理的认知方法》之三:文本词如何在人类关联网络中选择相关词

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。

点击查看第一章
点击查看第二章

第3章 文本词如何在人类关联网络中选择相关词

传统上,研究者对实验获得的人类关联本身进行了分析,但没有关联其他语言数据。在极少数情况下,人类关联被用作评估算法性能的标准,这些算法在文本语料库的基础上生成关联。本章将描述一个机器程序,以研究在实验构建的人类关联网络中,嵌入在文本上下文中的单词是如何选择关联的。实验中产生的每个关联都存在一个从激励到响应的方向。另一方面,每个关联都基于两个含义之间的语义关系,这个语义关系具有独立于关联方向的自身方向。因此,我们可以将网络看作有向图或无向图。本章中描述的程序使用两种图结构来生成语义一致的子图。对结果进行比较表明,该程序在两种图结构上都运行良好。该程序能够区分文本中与实验中用于创建网络而使用的激励词形成直接语义关系的那些词,还能够分离文本中与激励词形成间接语义关系的那些词。

3.1 引言

很容易观察到语义信息会出现在人类交流中,而不存在于句子的词汇中。这种现象不会影响人类的理解过程,但是文本处理算法的性能可能会受此影响。比如,我们看以下这段对话:
-阿姨,我有一只小猎狗(terrier)!
-那很棒,但是你必须照顾好这只小动物(animal)。
这段对话的两个句子之间的连接表明,在人类的记忆中terrier和animal之间存在联系。词汇语义学家可以通过上下义关系的性质来解释这一现象,上下义关系是传递性的:成对地,一只小猎狗是一只狗,一只狗是一只小动物,表明一只小猎狗是动物[LYO 63, MUR 03]。我们甚至可以使用WordNet等词典自动处理这种现象。然而,在很多情况下,我们需要更复杂的推理来解码在文本中编码的信息。我们来举个例子:The survivor regained his composure as he heard a distant barking.(幸存者听到远处的吠叫声后恢复了镇静)。这看起来很明显,一个以英语为母语的人类读者可以很容易地解释幸存者精神状态变化的原因。例如,这个人可能会说:“一只狗叫,一只狗和一个人住得很近(附属)并且一个人可能会帮助幸存者。”然而我们会发现,在发展的现阶段,使用人工构建的语义词典,如WordNet,甚至FrameNet,是无法做出这种推理的[RUP 10]。
然后,我们发现研究实验构建的自然词典的属性是合理的,自然词典即由词和它们之间自然偏好的语义连接组成的关联网络。有一种可靠的方法来建立这样的网络。自由词关联测试[KEN 10](其中被测试者用与研究人员提供的激励词相关的词作出回应)将在激励词和响应词之间提供自然偏好的联系。如果我们在测试的下一阶段使用在初始阶段获得的响应作为激励来执行多相词关联测试,我们将创建一个丰富的词汇网络,其中单词与多个链接相连接[KIS 73]。
回到我们的例子,我们查找爱丁堡关联词库,这是第一个通过实验建立的大型词汇网络。我们可以在这里找到35个“狗”的关联词,其中包括:
狗—人、吠、乡村、宠物、枪、项圈、狗链、带领、口哨
我们看到“狗”这个词直接与“吠”和“人”联系在一起,这几个词与“项圈”“带领”“狗链”“宠物”“枪”同时出现,这是狗-人邻近关系的属性。然后,如果我们看看在实验中建立的波兰词汇网络[GAT 14]中“狗”的关联词,我们会发现“狗”这个词不在激励词集中,它只与响应相关联,我们可以找到以下关联:
人、羊、保护者、烟—狗
正如我们在波兰网络中看到的那样,“狗”同样和“人”存在关联,而其他与“狗”相关联的词表明狗是为人类工作的。
因此,我们可以认为,对自由关联测试建立的词汇网络中的意义连接进行研究,将提供数据来解释文本中的一个词在词典中是如何连接的,以及这些连接如何(如果可能的话)提供文本中词汇缺失的信息。在该网络中观察到的一些现象可能会加强这种假设。如果我们仔细观察“狗”的关联词,我们可能会发现它们中的大多数是可以直接解释的,如狗是宠物、狗有项圈或者狗是保护者。然而,这两个列表中也有需要被证明解释的关联—我们称之为间接关联。例如,英语网络中的“狗-枪”关联可以通过基于直接可解释的关联链的推理来解释:狗是人的附属,人狩猎,人使用枪。我们可以在波兰语的“狗-烟”关联中找到类似的情况:狗是人的附属,人生火,火产生烟雾。一旦我们在网络中发现了一个间接关联,比如“狗-枪”,我们就可以在网络中寻找一条以“狗”作为开始节点,“枪”作为结束节点的路径。如果找到了这条路径,我们必须评估该路径,以确定它是否解释了“狗”和“枪”的联系。已经观察到,如果一个网络足够丰富,我们可以识别更远的关联和解释的路径,如“羊肉-角”,由路径“羊肉-公羊-羊角”解释,或者“羊肉-羊毛”关联,由路径“羊肉-公羊-羊毛(fleece)-羊毛(wool)”解释,这在波兰语网络中已被人工识别[GAT 13]。
然而,在我们开始寻找网络中的解释路径之前,我们必须开发一个可靠的机器程序,该程序将文本中的一个单词作为输入,并且可以在网络中找到与一个文本的单词最佳相关的子网络(子图),其中最佳是指:在这个子网中每个节点(单词)语义上与一个文本的单词相关。本章就描述了这样一个程序。
将要描述的程序最初被设计为在被视为无向图的关联网络上运行的程序[LUB 15]。然而,该程序所提取的子网语义一致性的评估非常令人鼓舞,因此我们决定扩展该程序,使其能够在被视为有向图的网络上同时运行。这个扩展很重要,因为它能使程序适应网络的性质—自由词关联实验中构建的网络是有向图;网络中两个节点(词)之间的每个连接都有一个方向,总是从激励词到响应词。这种扩展使我们能够真正评估一个程序。我们将比较它在有向和无向网络结构上的运行方式。

3.2 网络

本章中描述的网络是通过一个自由词关联实验[GAT 14]建立的,其中使用两组激励,每组激励处于实验的不同阶段。在第一阶段,来自Kent-Rosanoff列表的62个单词被作为初级激励进行测试。在第二阶段,对第一阶段获得的每个初级激励的5个最频繁的响应被用作激励。为了减少评估算法输出所需的人工劳动力,我们使用了一个简化的网络,该网络基于:

  • 波兰版Kent-Rosanoff列表的43个初级激励。
  • 126个次级激励,这是每个初级激励最常见的三种关联。

900多名受试者产生的特定激励的平均关联数约为150。因此,作为实验的结果,168个激励获得的激励-响应对的总数等于25?200对。由于算法产生的结果的分析需要人工操作,我们通过排除每个响应频率等于1的激励-响应对来减少关联集。结果,我们获得了6342对激励-响应对,其中2169对包含对初级激励的响应(即初级关联),4173对包含对次级激励的响应(即次级关联)。最终的网络由3185个节点(单词)和6155个节点之间的连接组成。
实验构建的关联网络可以在图上描述,其中该图被定义为元组(V, E),V是节点(顶点)的集合,E是来自V的两个节点之间的连接的集合。两个节点之间的连接可以有一个权重。实验结果是一个三元组列表:(S, A, C),其中S是激励,A是关联,C是参与者的数量(它将A与S关联起来)。C代表了关联强度,可以转换成Cw的连接权重,计算如下:Cw = Sc/C,其中Sc是对激励S给出的所有响应的总和。然后,我们可以将关联网络视为一个加权图,这是一个元组(V, E, w),其中w是为每个连接分配权重的函数。
由于每个激励-关联(响应)对都有一个方向,该方向总是从激励到响应,因此我们可以将关联网络视为有向图[KIS 73],这意味着两个节点(v1, v2)之间的每个连接都有一个方向,即从v1开始到v2结束—这种连接称为弧。另一方面,如果我们认识到连接(v1, v2)是两个词的含义之间的语义关系,那么我们必须认识到激励-响应方向和两个含义之间的语义关系方向可能不同。让我们考虑一下这些关联:椅子—腿和腿—椅子。在这两种情况下,相关联的含义通过相同的语义关系连接,即整体-部分关系[MUL 03],同时该语义关系具有从部分(如腿)到整体(椅子)的方向。对于上下义关系,也可以观察到同样的现象:从下级“小猎狗”到上级“狗”的语义,关系的方向不取决于关联“小猎狗-狗”或“狗-小猎狗”的方向。因此,我们可以将关联网络视为无向图,这意味着两个节点(v1, v2)之间的连接没有方向,即(v1, v2)=(v2, v1)。
图中的路径即由边或弧连接的节点序列。路径长度是路径中的节点数。路径权重是路径中所有连接的权重之和。两个节点(v1, v2)之间的最短路径是路径权重小于v1和v2之间直接连接的权重的路径。

3.3 基于文本的激励驱动的网络提取

如果网络和文本都是由单词构建的结构,那么我们可能会寻找一种有效的算法,可以在文本中识别实验中用于构建网络而使用的激励单词,以及适当数量的该激励的直接关联。文本中识别的单词可以作为从网络中提取子图的起点,该子图将包含尽可能多的关联。返回的子图的节点之间的语义关系将成为评估的主题。
更专业地说,该算法应该以图(关联网络)及其在文本中标识的节点子集(提取节点)作为输入。然后,该算法创建一个将所有提取节点作为初始节点集的子图。之后,网络中存在的提取节点之间的所有连接都被添加到结果子图中—这些连接被称为直接连接。最后,在网络中检查每个直接连接,以确定是否可以用最短路径替换,其中最短路径权重低于直接连接的权重且节点数小于或等于预定路径长度。如果找到这样的路径,它会被添加到子图中—这意味着添加该路径的所有节点和连接。如果我们将这个过程应用于大型文本集合的每一个文本,如果我们合并得到的文本子图,我们可以对为特定激励词创建的子图进行评估。

3.3.1 子图提取算法

给出路径i中的源图G、提取节点EN和最大中间节点数。首先,创建一个空的子图SG,并将所有提取节点EN添加到节点(顶点)集合Vsg中。在下一组步骤中,将创建EN中节点之间所有节点对的ENP。对于ENP中的每一对,算法检查配对节点v1、v2之间的连接是否存在于G中。如果存在,则该连接被添加到子图SG的连接集合Esg中。然后,检查G中v1和v2之间的最短路径sp。如果找到了最短路径sp,即sp权重低于直接连接(v1, v2)的权重,并且最短路径中间节点的数量小于i(length(sp)-2,“-2”是因为开始和结束节点不是中间节点),然后sp路径通过将它的节点和连接添加到适当的集合Vsg和Esg中,而被添加到子图SG中。最后,返回子图SG。

image.png

显然,算法创建的子图的大小取决于输入端给出的提取节点的数量。由于文本中用作提取节点的特定激励的初级关联的数量可能不同,因此需要一种对网络提取算法使用的提取节点数量进行控制的程序。

3.3.2 控制流程

该流程控制提取节点EN的数量和子图SG的大小。为了用它为给定的激励建立一个子图,文本必须包含激励S和至少dAn个激励的直接关联。选择dAn = 2作为提取算法的起始值,这意味着如果文本的dAn < 2,则文本会被省略。如果文本的dAn≥2,则该文本用于子图提取。首先,激励和dAn = 2个初级关联作为提取节点传递给网络提取算法NEA。然后,计算返回的子图中的节点数。在下一步中,dAn增加1,新的一组提取节点被传递给NEA。评估返回的子图大小,即基于dAn + 1的子图的节点数乘以子图大小控制参数Ss,该参数告诉我们在为dAn + 1创建的子图中必须存在基本子图的比例,基本子图即dAn = 2的起始值创建的子图。例如,Ss = 0.5意味着来自基本子图的至少一半节点必须保留在dAn递增后创建的子图中。如果新创建的子图与Ss设置的条件不匹配,则流程停止,并且在上一步骤中创建的子图成为特定文本的最终结果。如果新创建的子图与Ss设置的条件匹配,则dAn增加1,并创建一个新的子图。

3.3.3 最短路径提取

图3-1和图3-2表示实验网络的子集,分别被视为有向图和无向图。每个图都由chleb(bread)、maslo(butter)、jedzenie(food)、ser(cheese)、mleko(milk)、dobry(good)、kanapka(sandwich)和zólty(yellow)等节点组成,这些节点通过自由词关联实验产生的连接而关联起来。

image.png

图3-1表示规范化有向网络的概念,如果可以找到比直接连接两个节点的路径更短的路径。在这种情况下,“更短”意味着路径连接的权重总和小于直接连接的权重。在这个特定的例子中,节点之间的虚线连接取代了原来的黑色连接。这是因为路径ser→jedzenie→chleb→maslo的权重总和为84,低于节点maslo→ser的直接连接权重200。
同样的推理也适用于由无向权重图表示的实验网络(图3-2)。

image.png

在无向图的情况下,我们将其视为节点之间具有对称连接的有向图,即(v1, v2) = (v2, v1)。从图3-2中我们可以看到,ser-maslo连接被与有向图相同的路径ser-jedzenie-chleb-maslo替换,并且找到了ser-maslo连接的另一条最短路径,即路径maslo-mleko-ser,其路径权重为198,小于200(即ser-maslo直接连接的权重)。
在这两种情况下,都应用了Dijkstra的经典最短路径算法。然而,子图提取算法NEA将拒绝任何不满足i参数设置的最短路径。

3.3.4 基于语料库的子图

首先,为语料库中的每个文本创建每个初级激励的单独子图。所有子图都是用经验调整的参数[HAR 14]获得的,例如:对于提取算法,i = 3路径中的中间节点,以及激励最小值dAn = 2的直接关联,控制程序有一个调整参数为Ss = 0.5的子图。然后,针对特定初级激励获得的基于文本的子图被合并到基于语料库的初级激励子图中,即所有节点集和所有边集被合并,形成一个多集的并集。最后,修剪了基于语料库的初级激励子图,这意味着从最终子图中移除了所有未连接的节点,并且简化了激励和末端节点之间具有两条以上边的每个开放路径(末端节点未连接的路径),以符合网络形成原理,即激励(A)产生关联(B),然后该关联(B)作为激励产生关联(C)。之后,简化的路径采用A-B-C的形式。

3.4 网络提取流程的测试

3.4.1 进行测试的语料库

为了测试最初的程序,我们使用了三个文体和主题不同的语料库,即由包含2900000多个单词的波兰新闻社的51574篇新闻稿组成的PAP语料库、由3363个独立文档组成的涵盖860000多个单词的波兰国家语料库的子语库,以及由著名小说家博勒斯·普鲁斯写的10篇短篇小说和长篇小说《玩偶》组成的文学文本语料库。这三个语料库都使用基于词典的方法[KOR 12]进行了词性还原。这一流程在这三个语料库上都表现很好。然后,我们决定在最大的语料库上进行下面描述的测试,即PAP测试。

3.4.2 提取子图的评估

为了评估提取的子图的质量,我们将使用两个独立的评估标准:第一,测试子图的语义一致性,第二,测试子图如何匹配文本集合。

1.子图的语义一致性

为了进行评估,我们要人工评估用于构建网络的6342个激励-响应对中的每一对。评估是必要的,因为观察到自由词关联实验可能产生所谓的铿锵关联,即听起来像激励或与激励押韵的单词,如house-mouse,以及习语完成关联,如white-house,它们形成了一个多部分词汇单位,因此没有反映激励和响应之间的含义关系[CLA 70]。我们扩展了这一观察,将所有引入专有名称的关联,如river-Thames,以及不太频繁的指示关联,如girl-me视为非语义关联。
评估如下。如果激励在语义上与响应相关,如dom-sciana(house-wall),则该对被标记为语义的,否则该对被认为是非语义的,如góra-Tatry(mountain-专有名称)或者dom-mój(house-my)。
然后,按照以下方式沿着路径连续评估子图节点。如果两个连接的节点匹配标记为语义的激励-响应对,那么右边的节点标记为语义的(Sn)。如果两个连接的节点匹配非语义激励-响应对,那么右边的节点被标记为非语义的(nSn)。如果两个连接的节点不匹配任何激励-响应对,除了原则上是语义节点的激励节点,那么两个节点都被标记为nSn。在评估路径的最后一对之后,评估路径的起始节点(激励)和结束节点的连接,以检查路径的语义一致性。因此,非语义节点nSn被认为是与起始节点(激励)没有语义关系的任何末端节点(关联),即使它与前一个节点有语义关系,如路径krzeslo-stól-szwedzki(椅子-桌子-瑞典),其中成对的krzeslo-stól和stól-szwedzki形成语义关系,但是激励krzeslo(“椅子”)与关联szwedzki(“瑞典”)不形成语义关系。

2.匹配子图和文本集合

为了评估提取的子图与文本集合的关系,我们必须将包含特定激励的每个文本与为此激励提取的子图进行匹配。然后,我们必须计算文本和子图SnT中识别的网络节点(单词)数。之后,我们必须以文本为背景,将整个直接关联集与网络中出现的特定激励匹配起来。这样做是为了识别网络中存在但被算法拒绝的网络节点(单词),因此这些节点不存在于子图TnS中。

3.4.3 有向和无向子图提取:对比

现在,我们可以呈现每个初级激励的结果,其中每个初级激励词的子图都被评估过。为了比较针对每个激励提取的有向和无向子图,我们将使用子图评估过程中获得的所有数据,即:

  • Sn:算法创建的子图中的节点数;
  • nSn:通过子图评估识别的子图中非语义节点的数量;
  • SnT:文本和子图中识别的网络节点(单词)数量;
  • TnS:文本中存在但被算法拒绝的网络节点(单词)数量,因此不存在于子图中。

在我们开始评估每个激励之前,我们必须展示43个激励的联合评估结果。为了做此分析,我们必须确定网络中的节点总数—Nn。表3-1显示了基于PAP语料库的所有子图的联合结果。

image.png

如果我们观察表3-1,比较网络节点Nn的数量以及SnT(在文本中检索的网络节点,以提取子图)和TnS(存在于文本中但被算法拒绝的网络节点)的总和,我们可以发现网络中存在的节点(单词)只有一小部分出现在大的文本集合中—无向网络比率为0.234,有向网络为0.267。这个分数明显低于子图节点Sn与网络节点Nn的比率:对于无向网络,该比率为0.281;对于有向网络,该比率为0.275。可以说,这些数字显示了语言词典(网络)和使用词典制作文本之间的关系。nSn值(子图中的非语义节点)显示,子图中的非语义节点在无向网络和有向网络中仅占总子图节点的0.072。这个结果显示了经验构建的关联网络的语义一致性,以及本章描述的构建子图的谨慎方法的质量。
最后,Sn、SnT和TnS的大小差异可能反映了有向图结构和无向图结构之间的差异,这对使用文本中的单词来提取子图产生了影响。稍后我们将提供详细的分析。

3.4.4 每个激励产生的结果

如果我们观察每个特定初级激励获得的结果,就可能对结果进行更详细的评估。这些结果显示在表3-2中。

image.png
image.png

联合评估表明,在无向网络上运行的程序会产生稍大的子图。然而,如果我们看一下图3-3中每个激励的差异(图3-3比较了有向网络和无向网络的子图大小),我们可能会发现任何差异似乎都依赖于激励。图3-3显示,两个网络的Sn大小同时增加,只有dziecko“child”(+24)、reka“hand”(+23)、dom“home/house”(+16)、choroba“illness”(+11)、zolnierz“soldier”(-11)、woda“water”(-20)和mezczyzna“man”(-28)的Sn可能反映了网络结构的差异。我们必须补充的是,列出的单词并不具有实质性的语义特征。

image.png

比较子图大小后,我们可以分析子图中的负节点nSn。这可以在图3-4中看到,图3-4显示了每个激励的nSn-Sn比;激励按子图大小排序。我们可以看到,从无向网络中提取的43个子图中只有17个子图不包含非语义节点;而对于有向网络,只有13个子图。有趣的是,只有5个激励词,即baranina“mutton”、ksiezyc“moon”、lampa“lamp”、ser“cheese”和zolnierz“soldier”在这两个网络结构中共享这一属性。nSn/Sn比值的差异似乎与网络结构有关。
乍看之下,我们可以说SnT和TnS的激励状态对于有向网络和无向网络来说似乎相似。SnT(在文本中检索到的子图节点)大小的差异可以在表3-2中观察到,这似乎是随机的和依赖于语料库的。例如,激励词dywan(carpet)只出现在7个文本中,其中只有两个足够丰富,可以提供提取节点(激励词和两个直接关联)。使用SnT单词来创建子图可能取决于有向或无向网络结构;然而,没有单独的研究,我们无法证明这一点。
最后,我们必须分析TnS,即网络和文本中都存在但子图中不存在的关联,因为算法拒绝了它们。首先,我们可以观察到,在有向网络上运行的算法拒绝了更多的文本出现节点,这可能与有向网络较少的子图节点相关。第二个观察结果是,对于有向和无向网络,只有10个激励具有被拒绝的文本出现节点。看一下这些被拒绝的网络节点似乎是合理的。表3-3显示了所有10种激励被拒绝节点的完整列表。为了节省空间,我们将只使用被拒绝节点的英文翻译。

image.png
image.png

当查看在两个网络上运行的算法所拒绝的节点时,我们发现所有单词都在语义上与一个激励相关,对于其中的大部分,我们可以直接解释激励和关联之间的联系。例如,对于无向网络,king“制定/执行”了一个法则(law),king“拥有”一个王国(kingdom),王权(scepter)是king的“属性”。然而,其中一些被拒绝的节点(标有星号)与激励没有直接联系,如绵羊(sheep)-角(horns)、水(water)-沙漠(desert),但我们可以通过一系列直接联系来解释它们,即绵羊-公羊-角和水-渴-搜索-沙漠。也就是说,所有标有星号的单词与激励的关联方式与间接关联方式相同。因此,我们可以说本章描述的方法可能有助于识别网络中存在的间接关联。先人工检查被算法拒绝的节点的短列表,然后再人工检查整个网络要容易得多。一旦间接关联被识别,我们可能会很容易地构建一个自动程序来寻找解释这些间接关联的路径。

3.5 对结果和相关工作的简要讨论

我们所提出的文本驱动的关联网络提取方法对图的操作简单而且谨慎。由激励词如在文本中出现次数很少的pajak“spider”、lampa“lamp”和dywan“carpet”,提取的子图的质量似乎证明了提取算法并不依赖于用于网络提取的文本数量。如果这是真的,则该算法可以用作基于单个文本提取关联网络的可靠工具,单个文本可以提供数据来研究在文本中检索的特定直接关联如何影响子图的大小和内容。也就是说,如果文本用直接关联krzeslo“chair”代替直接关联ulica“street”,我们可以观察lamp的子图(图3-5)会如何变化,直接关联krzeslo“chair”有自己的子图,如图3-6所示。
lampa的子图包括由文本ulica“street”、zarówka“light bulb”、swiatlo“light”提供的直接连接的节点和算法增加的zarówka-swiatlo连接。

image.png

krzeslo的子图包括直接连接的节点:文本提供的stól(table)、dom(home)、stary(old),文本添加的obiad(dinner)、rodzinny(family)和算法添加的obiad(dinner)、rodzinny(family)。

image.png

对单个文本的研究似乎是合理的,因为人类读者只理解文本,而不是文本集合。将使用我们的方法一字一字地提取的文本图与仅基于文本集合构建的文本图(例如,[LOP 07, WU 11, AGG 13])进行比较是很有趣的。这应该是进一步调查的主题。
在子图提取过程中对算法拒绝的单词的分析表明,文本驱动的网络提取过程可以作为一种工具来提供数据,从而定位大型网络中的间接关联。这是一项非常难以手动完成的任务。识别了间接关联后,我们可能会自动搜索网络以找到解释这些间接关联的所有路径。这些解释路径可能会给克拉克[CLA 70]分析的人类关联机制的研究带来新的数据。
然而,如果我们从模拟人类推理的计算机程序的角度来看一个关联网络,我们会发现,实验获得的两个单词之间的联系并不能提供关于这种联系的含义的明确信息。然而,看起来很清楚的是,在本章引言的例子中,只有类似狗与人的关系的明确信息可以作为幸存者心理状态推理的基础。这意味着我们必须对词与词之间的联系进行分类,以使网络可用于计算机程序进行类似于人类的推理。我们将不讨论可能的分类方法(例如[DED 08,GAT 15]),但我们必须强调,正确的分类必须认识到词汇网络中两个节点之间的连接反映了网络中构成特定类型,如狗、花或特定的集合,如furniture、water结构[SOW 00]的特征。
最后,我们必须认识到为什么实验构建的关联网络与从文本集合中自动构建的网络不完全匹配。自从Rapp[RAP 02]的一项有影响力的研究以来,一个实验构建的关联网络成为评估由不同统计算法产生的关联的标准,这些算法仅在文本集合上运行(例如,[WAN 08, GAT 13, UHR 13])。文本生成的关联反映了文本连续性[WET 05]。然而,需要补充的是,与文本衍生的关联相反,自由词关联实验获得的关联代表了定义词汇意义的特征。如果比较在波兰报纸文本集上运行的Wortschatz算法的结果[BIE 07],我们可以发现单词dom(home/house)与许多不同的动词相关联,如kupic(buy)、uderzyc(hit)、wybudowac(build)、splonac(burn)、stoi(standing)、wjechal(struck)、zniszczyc(destroy)和miec(possess),这些可能与许多不同的对象相关联。同时,在文中描述的实验网络中,dom与单个动词mieszkac(to dwell)相关联,并且这个特殊的动词特指dom,因为“to dwell”定义了对象的目的地和名为dom的位置。

3.6 参考文献

image.png
image.png

相关文章
|
24天前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
65 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
16天前
|
域名解析 缓存 网络协议
优化Lua-cURL:减少网络请求延迟的实用方法
优化Lua-cURL:减少网络请求延迟的实用方法
|
2月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
147 1
|
2月前
|
安全 算法 网络安全
量子计算与网络安全:保护数据的新方法
量子计算的崛起为网络安全带来了新的挑战和机遇。本文介绍了量子计算的基本原理,重点探讨了量子加密技术,如量子密钥分发(QKD)和量子签名,这些技术利用量子物理的特性,提供更高的安全性和可扩展性。未来,量子加密将在金融、政府通信等领域发挥重要作用,但仍需克服量子硬件不稳定性和算法优化等挑战。
|
2月前
|
网络协议 网络安全 网络虚拟化
本文介绍了十个重要的网络技术术语,包括IP地址、子网掩码、域名系统(DNS)、防火墙、虚拟专用网络(VPN)、路由器、交换机、超文本传输协议(HTTP)、传输控制协议/网际协议(TCP/IP)和云计算
本文介绍了十个重要的网络技术术语,包括IP地址、子网掩码、域名系统(DNS)、防火墙、虚拟专用网络(VPN)、路由器、交换机、超文本传输协议(HTTP)、传输控制协议/网际协议(TCP/IP)和云计算。通过这些术语的详细解释,帮助读者更好地理解和应用网络技术,应对数字化时代的挑战和机遇。
118 3
|
2月前
|
机器学习/深度学习 自然语言处理 知识图谱
GraphRAG在自然语言处理中的应用:从问答系统到文本生成
【10月更文挑战第28天】作为一名自然语言处理(NLP)和图神经网络(GNN)的研究者,我一直在探索如何将GraphRAG(Graph Retrieval-Augmented Generation)模型应用于各种NLP任务。GraphRAG结合了图检索和序列生成技术,能够有效地处理复杂的语言理解和生成任务。本文将从个人角度出发,探讨GraphRAG在构建问答系统、文本摘要、情感分析和自动文本生成等任务中的具体方法和案例研究。
83 5
|
2月前
|
自然语言处理 Python
如何使用自然语言处理库`nltk`进行文本的基本处理
这段Python代码展示了如何使用`nltk`库进行文本的基本处理,包括分词和词频统计。首先需要安装`nltk`库,然后通过`word_tokenize`方法将文本拆分为单词,并使用`FreqDist`类统计每个单词的出现频率。运行代码后,会输出每个词的出现次数,帮助理解文本的结构和常用词。
106 1
|
3月前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
66 2
|
3月前
|
机器学习/深度学习 存储 自然语言处理
从理论到实践:如何使用长短期记忆网络(LSTM)改善自然语言处理任务
【10月更文挑战第7天】随着深度学习技术的发展,循环神经网络(RNNs)及其变体,特别是长短期记忆网络(LSTMs),已经成为处理序列数据的强大工具。在自然语言处理(NLP)领域,LSTM因其能够捕捉文本中的长期依赖关系而变得尤为重要。本文将介绍LSTM的基本原理,并通过具体的代码示例来展示如何在实际的NLP任务中应用LSTM。
226 4
|
3月前
|
机器学习/深度学习 计算机视觉
TPAMI 2024:计算机视觉中基于图神经网络和图Transformers的方法和最新进展
【10月更文挑战第3天】近年来,图神经网络(GNNs)和图Transformers在计算机视觉领域取得显著进展,广泛应用于图像识别、目标检测和场景理解等任务。TPAMI 2024上的一篇综述文章全面回顾了它们在2D自然图像、视频、3D数据、视觉与语言结合及医学图像中的应用,并深入分析了其基本原理、优势与挑战。GNNs通过消息传递捕捉非欧式结构,图Transformers则结合Transformer模型提升表达能力。尽管存在图结构构建复杂和计算成本高等挑战,但这些技术仍展现出巨大潜力。论文详细内容见:https://arxiv.org/abs/2209.13232。
189 3

热门文章

最新文章