《 短文本数据理解》——2.4相关研究

简介: 本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4相关研究 虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。

本节书摘来自华章出版社《短文本数据理解》一书中的第2章,第2.4节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4相关研究

虽然概念的属性提取被广泛研究,现有的工作没有侧重于典型度得分和概念数量的扩展性。本章方法创新性地通过对属性典型度的严谨分析和多重数据来源,为大量的概念提取属性。
许多现有工作[122,138,33]依赖于种子属性来鉴别提取模式以获得较多属性。这些工作也尝试了从网页文本[33]、搜索日志[122],以及包括网页表格、列表和html标签在内的结构化数据[138]中获取属性。然而,它们没有将多个来源的属性提取融合。
不依赖于种子属性的提取方法[125]通常只使用IB模式,从搜索日志和网页文本提取属性。然而,依赖于单一数据源的方法在某些概念上(如wine和credit card)表现很差。
最新的一些方法[82,124]考虑了在属性提取中将多个数据源的结果合并。Pasca等[124]使用搜索日志和查询会话来提取属性。参考文献[82]则合并了多个结构化的数据源,如网页表格、列表、DBpedia和Wikipedia。然而,这些方法没有涉及计算概率得分并将多数据源的得分聚合。
一些不包含打分的属性提取方法使用了词性标注[162],基于随机游走的标签扩散[7],通过网页图表改进实体模式[174]。相比之下,本章的方法用轻量级的模式提取代替了词性标注,从而解决了拓展性和数据稀疏问题。本章方法的另一显著特点在于从多数据源量化属性的典型度。
基于网页表格的方法[47]量化了属性的联合概率,可以给出相关属性。而本章方法的区别在于强调了实体的歧义性,从而得到健全的属性典型度得分。另一个区别在于本章方法采用learningtorank的手段来获取得分,从而避免了对人工标注的依赖。
非常依赖网页表格的方法[47,82]可提取带有数值的属性。然而大多属性不会被以数值描述,如history of country。因此,这些方法不适用于提取大范围的典型属性。

相关文章
|
10月前
情感理论模型
情感理论模型
412 0
|
7月前
|
人工智能 自然语言处理 算法
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
【8月更文挑战第26天】在人工智能领域,尽管大型语言模型(LLMs)作为自动评估工具展现了巨大潜力,但在自然语言生成质量评估中仍存偏见问题,且难以确保一致性。为解决这一挑战,研究者开发了Pairwise-preference Search(PairS)算法,一种基于不确定性的搜索方法,通过成对比较及不确定性引导实现高效文本排名,有效减少了偏见、提升了评估效率和可解释性。PairS在多项任务中表现出色,相较于传统评分法有显著提升,为自然语言处理评估提供了新思路。更多详情参阅论文:https://arxiv.org/abs/2403.16950。
98 4
|
机器学习/深度学习 人工智能 算法
化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物
化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物
155 0
|
数据采集 机器学习/深度学习 人工智能
AiTrust下预训练和小样本学习在中文医疗信息处理挑战榜CBLUE表现
可以看出在样本量还算大的情况下,预训练方式更有优势(准确率略高一点且训练更快一些),通过AITrust可信分析:稀疏数据筛选、脏数据清洗、数据增强等方案看到模型性能都有提升; 这里提升不显著的原因是,这边没有对筛选出来数据集进行标注:因为没有特定背景知识就不花时间操作了,会导致仍会有噪声存在。相信标注完后能提升3-5%点 1. 对于大多数任务,我们使用预训练模型微调作为首选的文本分类方案:准确率较高,训练较快 2. 提示学习(Prompt Learning)适用于标注成本高、标注样本较少的文本分类场景。在小样本场景中,相比于预训练模型微调学习,提示学习能取得更好的效果。对于标注样本充足、标
|
自然语言处理
|
机器学习/深度学习 自然语言处理
|
机器学习/深度学习 存储 编解码
|
Java 编译器 Android开发
[短文速读] a=a+b和a+=b的区别
前言 短文速读,这将是一个系列文章。自己写了很多文章,也看了很多文章。发现很多都是收藏不看系列。当然有时间的时候,的确会把收藏的文章找出来好好的学习一番。
1286 0
|
机器学习/深度学习 自然语言处理
|
机器学习/深度学习 人工智能 安全
8月3日云栖精选夜读:LSF-SCNN:一种基于CNN的短文本表达模型及相似度计算的全新优化模型
本文提出了基于词汇语义特征的跳跃卷积模型LSF-SCNN,通过引入三种优化策略:词汇语义特征LSF、跳跃卷积SC和K-Max均值采样KMA分别在词语、短语、句子粒度抽取更加丰富的语义特征,从而更好的在向量空间构建短文本语义表达模型,并广泛的适用于问答系统QA、释义识别PI和文本蕴含TE等计算成对儿出现的短文本的相似度的任务中。
4020 0