本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.4相关研究
虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。本章方法创新性地通过对属性典型度的严谨分析和多重数据来源,为大量的概念提取属性。
许多现有工作[122,138,33]依赖于种子属性来鉴别提取模式以获得较多属性。这些工作也尝试了从网页文本[33]、搜索日志[122],以及包括网页表格、列表和html标签在内的结构化数据[138]中获取属性。然而,它们没有将多个来源的属性提取融合。
不依赖于种子属性的提取方法[125]通常只使用IB模式,从搜索日志和网页文本提取属性。然而,依赖于单一数据源的方法在某些概念上(如wine和credit card)表现很差。
最新的一些方法[82,124]考虑了在属性提取中将多个数据源的结果合并。Pasca等[124]使用搜索日志和查询会话来提取属性。参考文献[82]则合并了多个结构化的数据源,如网页表格、列表、DBpedia和Wikipedia。然而,这些方法没有涉及计算概率得分并将多数据源的得分聚合。
一些不包含打分的属性提取方法使用了词性标注[162],基于随机游走的标签扩散[7],通过网页图表改进实体模式[174]。相比之下,本章的方法用轻量级的模式提取代替了词性标注,从而解决了拓展性和数据稀疏问题。本章方法的另一显著特点在于从多数据源量化属性的典型度。
基于网页表格的方法[47]量化了属性的联合概率,可以给出相关属性。而本章方法的区别在于强调了实体的歧义性,从而得到健全的属性典型度得分。另一个区别在于本章方法采用learningtorank的手段来获取得分,从而避免了对人工标注的依赖。
非常依赖网页表格的方法[47,82]可提取带有数值的属性。然而大多属性不会被以数值描述,如history of country。因此,这些方法不适用于提取大范围的典型属性。