《短文本数据理解》——2.4相关研究-阿里云开发者社区

《短文本数据理解》——2.4相关研究

2017-05-02 1381

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章出版社《短文本数据理解》一书中的第2章，第2.4节，作者：王仲远　编著，更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4相关研究虽然概念的属性提取被广泛研究，现有的工作没有侧重于典型度得分和概念数量的扩展性。

本节书摘来自华章出版社《短文本数据理解》一书中的第2章，第2.4节，作者：王仲远　编著，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4相关研究

虽然概念的属性提取被广泛研究，现有的工作没有侧重于典型度得分和概念数量的扩展性。本章方法创新性地通过对属性典型度的严谨分析和多重数据来源，为大量的概念提取属性。
许多现有工作［122，138，33］依赖于种子属性来鉴别提取模式以获得较多属性。这些工作也尝试了从网页文本［33］、搜索日志［122］，以及包括网页表格、列表和html标签在内的结构化数据［138］中获取属性。然而，它们没有将多个来源的属性提取融合。
不依赖于种子属性的提取方法［125］通常只使用IB模式，从搜索日志和网页文本提取属性。然而，依赖于单一数据源的方法在某些概念上（如wine和credit card）表现很差。
最新的一些方法［82，124］考虑了在属性提取中将多个数据源的结果合并。Pasca等［124］使用搜索日志和查询会话来提取属性。参考文献［82］则合并了多个结构化的数据源，如网页表格、列表、DBpedia和Wikipedia。然而，这些方法没有涉及计算概率得分并将多数据源的得分聚合。
一些不包含打分的属性提取方法使用了词性标注［162］，基于随机游走的标签扩散［7］，通过网页图表改进实体模式［174］。相比之下，本章的方法用轻量级的模式提取代替了词性标注，从而解决了拓展性和数据稀疏问题。本章方法的另一显著特点在于从多数据源量化属性的典型度。
基于网页表格的方法［47］量化了属性的联合概率，可以给出相关属性。而本章方法的区别在于强调了实体的歧义性，从而得到健全的属性典型度得分。另一个区别在于本章方法采用learningtorank的手段来获取得分，从而避免了对人工标注的依赖。
非常依赖网页表格的方法［47，82］可提取带有数值的属性。然而大多属性不会被以数值描述，如history of country。因此，这些方法不适用于提取大范围的典型属性。

文章标签：

监控

《短文本数据理解》——2.4相关研究

2.4相关研究

华章出版社

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《 短文本数据理解》——2.4相关研究

2.4相关研究

华章出版社

热门文章

最新文章

相关电子书

《短文本数据理解》——2.4相关研究