《 短文本数据理解》——2.4相关研究

简介: 本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4相关研究 虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。

本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4相关研究

虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。本章方法创新性地通过对属性典型度的严谨分析和多重数据来源,为大量的概念提取属性。
许多现有工作[122,138,33]依赖于种子属性来鉴别提取模式以获得较多属性。这些工作也尝试了从网页文本[33]、搜索日志[122],以及包括网页表格、列表和html标签在内的结构化数据[138]中获取属性。然而,它们没有将多个来源的属性提取融合。
不依赖于种子属性的提取方法[125]通常只使用IB模式,从搜索日志和网页文本提取属性。然而,依赖于单一数据源的方法在某些概念上(如wine和credit card)表现很差。
最新的一些方法[82,124]考虑了在属性提取中将多个数据源的结果合并。Pasca等[124]使用搜索日志和查询会话来提取属性。参考文献[82]则合并了多个结构化的数据源,如网页表格、列表、DBpedia和Wikipedia。然而,这些方法没有涉及计算概率得分并将多数据源的得分聚合。
一些不包含打分的属性提取方法使用了词性标注[162],基于随机游走的标签扩散[7],通过网页图表改进实体模式[174]。相比之下,本章的方法用轻量级的模式提取代替了词性标注,从而解决了拓展性和数据稀疏问题。本章方法的另一显著特点在于从多数据源量化属性的典型度。
基于网页表格的方法[47]量化了属性的联合概率,可以给出相关属性。而本章方法的区别在于强调了实体的歧义性,从而得到健全的属性典型度得分。另一个区别在于本章方法采用learningtorank的手段来获取得分,从而避免了对人工标注的依赖。
非常依赖网页表格的方法[47,82]可提取带有数值的属性。然而大多属性不会被以数值描述,如history of country。因此,这些方法不适用于提取大范围的典型属性。

相关文章
|
存储 数据可视化 数据挖掘
文献丨转录组表达数据的生信挖掘研究
文献丨转录组表达数据的生信挖掘研究
|
人工智能 安全 机器人
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
132 0
|
数据挖掘
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
|
机器学习/深度学习 自然语言处理
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
193 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
|
机器学习/深度学习 自然语言处理 数据挖掘
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
115 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
|
机器学习/深度学习 自然语言处理
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
130 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
|
机器学习/深度学习 自然语言处理 数据挖掘
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。 那么为什么要做无监督的句法分析呢?主要原因还是一些小语种标注语料太少了甚至没有,不能用监督句法分析来做。而且无监督句法分析学到的信息还可以用来增强语言模型或者更为下游的任务的性能,使它们能更好的融合句法结构信息。
207 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(二)
|
机器学习/深度学习 存储 数据采集
机器学习时代,神经科学家如何阅读和解码人类的思想
作者:Jiying 编辑:Joni 这篇文章围绕机器学习(ML)和功能性磁共振成像(fMRI)的应用问题,以三篇最新的研究型论文为基础,探讨基于统计学中 ML 的 fMRI 分析方法。
354 0
机器学习时代,神经科学家如何阅读和解码人类的思想
|
机器学习/深度学习 SQL 存储
头条实验室科学家李磊:准确率更高的问答系统和概率程序语言
李磊是今日头条实验室科学家,原百度美国深度学习实验室少帅科学家。卡耐基梅隆大学计算机系博士,曾在加州大学伯克利分校作博士后研究。李磊博士的研究论文在 IJCAI 等学术会议上多有收录,如今正在召开的 ACL 2016 同样收录了李磊博士的一篇论文。机器之心近日对李磊进行了专访,在此篇专访中,他向我们介绍了被收录的论文,还有他对概率程序语言、自然语言处理方面的理解。
372 0
头条实验室科学家李磊:准确率更高的问答系统和概率程序语言
下一篇
无影云桌面