《 短文本数据理解》——2.4相关研究

简介: 本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4相关研究 虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。

本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4相关研究

虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。本章方法创新性地通过对属性典型度的严谨分析和多重数据来源,为大量的概念提取属性。
许多现有工作[122,138,33]依赖于种子属性来鉴别提取模式以获得较多属性。这些工作也尝试了从网页文本[33]、搜索日志[122],以及包括网页表格、列表和html标签在内的结构化数据[138]中获取属性。然而,它们没有将多个来源的属性提取融合。
不依赖于种子属性的提取方法[125]通常只使用IB模式,从搜索日志和网页文本提取属性。然而,依赖于单一数据源的方法在某些概念上(如wine和credit card)表现很差。
最新的一些方法[82,124]考虑了在属性提取中将多个数据源的结果合并。Pasca等[124]使用搜索日志和查询会话来提取属性。参考文献[82]则合并了多个结构化的数据源,如网页表格、列表、DBpedia和Wikipedia。然而,这些方法没有涉及计算概率得分并将多数据源的得分聚合。
一些不包含打分的属性提取方法使用了词性标注[162],基于随机游走的标签扩散[7],通过网页图表改进实体模式[174]。相比之下,本章的方法用轻量级的模式提取代替了词性标注,从而解决了拓展性和数据稀疏问题。本章方法的另一显著特点在于从多数据源量化属性的典型度。
基于网页表格的方法[47]量化了属性的联合概率,可以给出相关属性。而本章方法的区别在于强调了实体的歧义性,从而得到健全的属性典型度得分。另一个区别在于本章方法采用learningtorank的手段来获取得分,从而避免了对人工标注的依赖。
非常依赖网页表格的方法[47,82]可提取带有数值的属性。然而大多属性不会被以数值描述,如history of country。因此,这些方法不适用于提取大范围的典型属性。

相关文章
|
机器学习/深度学习
深入理解SVM中的核函数及其应用
深入理解SVM中的核函数及其应用
730 91
|
图形学 开发者
Unity中的透明效果之开启深度写入半透明效果
在Unity中实现开启深度写入的半透明效果,通过分离渲染过程为两个阶段:深度写入和颜色混合。首先,在深度写入阶段仅写入深度信息而不渲染颜色;其次,在颜色混合阶段进行正常的半透明颜色混合,确保后续物体能正确渲染且避免被错误裁剪。该方法解决了常规半透明渲染中关闭深度写入导致的问题。提供自定义Shader代码及材质设置步骤,方便开发者实现这一特殊渲染需求。
|
数据采集 安全 easyexcel
如何快速获取开源组件信息
本文介绍如何使用IP代理技术获取开源组件信息,特别是针对GitHub上的项目。首先讲解了IP代理的重要性及其在突破反爬虫机制、保护隐私等方面的作用,接着详细介绍了Bright Data这一代理IP平台的优势,包括强大的代理网络、灵活的定价策略、合规的数据采集及专业的客户支持。最后,通过Python代码示例展示了如何利用Bright Data的代理IP来爬取GitHub项目的Watch、Fork、Star等信息,帮助评估开源组件的活跃度和维护情况。
331 3
|
云安全 弹性计算 安全
带你读《阿里云安全白皮书》(六)—— 公共云安全治理框架
《阿里云安全白皮书(2024版)》介绍了阿里云在云上安全治理框架的设计与建设,涵盖安全机制保障、安全能力支撑、数据主权保护、身份管控与授权、安全防护能力弹性扩展、快速响应与恢复、安全高可用及合规支撑等方面,旨在帮助客户以更低的成本实现更高的安全性。
|
存储
ArcMap报错ERROR 999999的一种解决方法
本文介绍一种解决ArcGIS中ERROR 999999报错(Configuration RasterCommander ImageServer can not be started)的方法~
1050 1
ArcMap报错ERROR 999999的一种解决方法
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器免费用!最高4核16G配置,最长3个月,这波羊毛可以薅
阿里云服务器到底好不好用,必须试试才知道!为此,阿里云特意推出了云产品试用活动,包括云服务器在内的132款云产品提供免费试用,即日起,凡注册阿里云且通过实名认证的新用户,个人用户提供每月750小时的免费试用时长,企业用户最长可免费试用3个月云服务器,免费云服务器最高配置为4核16G1M配置云服务器。
阿里云服务器免费用!最高4核16G配置,最长3个月,这波羊毛可以薅
|
Java 应用服务中间件 API
【Servlet篇】如何解决Request请求中文乱码的问题?
【Servlet篇】如何解决Request请求中文乱码的问题?
1036 0
|
机器学习/深度学习 人工智能 Kubernetes
PAI-DLC 深度学习训练平台介绍|学习笔记
快速学习 PAI-DLC 深度学习训练平台介绍。
1015 0
PAI-DLC 深度学习训练平台介绍|学习笔记
|
存储 数据可视化 IDE
我把「链路追踪」整明白了
我把「链路追踪」整明白了
617 0
我把「链路追踪」整明白了
idea、webStorm打开多个文件多排显示
idea、webStorm打开多个文件多排显示
1501 0
idea、webStorm打开多个文件多排显示

热门文章

最新文章