《 短文本数据理解》——2.4相关研究

简介: 本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4相关研究 虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。

本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4相关研究

虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。本章方法创新性地通过对属性典型度的严谨分析和多重数据来源,为大量的概念提取属性。
许多现有工作[122,138,33]依赖于种子属性来鉴别提取模式以获得较多属性。这些工作也尝试了从网页文本[33]、搜索日志[122],以及包括网页表格、列表和html标签在内的结构化数据[138]中获取属性。然而,它们没有将多个来源的属性提取融合。
不依赖于种子属性的提取方法[125]通常只使用IB模式,从搜索日志和网页文本提取属性。然而,依赖于单一数据源的方法在某些概念上(如wine和credit card)表现很差。
最新的一些方法[82,124]考虑了在属性提取中将多个数据源的结果合并。Pasca等[124]使用搜索日志和查询会话来提取属性。参考文献[82]则合并了多个结构化的数据源,如网页表格、列表、DBpedia和Wikipedia。然而,这些方法没有涉及计算概率得分并将多数据源的得分聚合。
一些不包含打分的属性提取方法使用了词性标注[162],基于随机游走的标签扩散[7],通过网页图表改进实体模式[174]。相比之下,本章的方法用轻量级的模式提取代替了词性标注,从而解决了拓展性和数据稀疏问题。本章方法的另一显著特点在于从多数据源量化属性的典型度。
基于网页表格的方法[47]量化了属性的联合概率,可以给出相关属性。而本章方法的区别在于强调了实体的歧义性,从而得到健全的属性典型度得分。另一个区别在于本章方法采用learningtorank的手段来获取得分,从而避免了对人工标注的依赖。
非常依赖网页表格的方法[47,82]可提取带有数值的属性。然而大多属性不会被以数值描述,如history of country。因此,这些方法不适用于提取大范围的典型属性。

相关文章
|
24天前
|
机器学习/深度学习 数据采集 自然语言处理
【热门话题】常见分类算法解析
本文介绍了6种常见分类算法:逻辑回归、朴素贝叶斯、决策树、支持向量机、K近邻和神经网络。逻辑回归适用于线性问题,朴素贝叶斯在高维稀疏数据中有效,决策树适合规则性任务,SVM擅长小样本非线性问题,KNN对大规模数据效率低,神经网络能处理复杂任务。选择算法时需考虑数据特性、任务需求和计算资源。
27 0
|
25天前
|
自然语言处理 数据可视化 算法
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
|
7月前
|
定位技术 uml
认知科学建模研究、认知神经科学的限制:建模笔记翻译(3)
认知科学建模研究、认知神经科学的限制:建模笔记翻译(3)
54 0
|
12月前
|
人工智能 安全 机器人
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
101 0
|
数据挖掘
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
|
机器学习/深度学习 存储 数据采集
机器学习时代,神经科学家如何阅读和解码人类的思想
作者:Jiying 编辑:Joni 这篇文章围绕机器学习(ML)和功能性磁共振成像(fMRI)的应用问题,以三篇最新的研究型论文为基础,探讨基于统计学中 ML 的 fMRI 分析方法。
297 0
机器学习时代,神经科学家如何阅读和解码人类的思想
|
机器学习/深度学习
|
机器学习/深度学习 算法 语音技术
【机器学习PAI实践十二】机器学习实现男女声音识别分类(含语音特征提取数据和代码)
背景 随着人工智能的算法发展,对于非结构化数据的处理能力越来越受到重视,这里面的关键一环就是语音数据的处理。目前,许多关于语音识别的应用案例已经影响着我们的生活,例如一些智能音箱中利用语音发送指令,一些搜索工具利用语音输出文本代替键盘录入。 本文我们将针对语音识别中最简单的案例“男女声音”识别,结合本地的R工具以及机器学习PAI,为大家进行介绍。通过本案例,可以将任何用户
2655 0