《 短文本数据理解》——1.3短文本理解框架

简介: 本节书摘来自华章出版社《短文本数据理解》一书中的第1章,第1.3节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3短文本理解框架 针对上述研究问题与研究现状,本书将围绕短文本理解的各项需求及挑战,重点介绍显性模型中基于概念化模型进行短文本理解中的关键性技术,如图1.6所示。

本节书摘来自华章出版社《短文本数据理解》一书中的第1章,第1.3节,作者:王仲远 编著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3短文本理解框架

针对上述研究问题与研究现状,本书将围绕短文本理解的各项需求及挑战,重点介绍显性模型中基于概念化模型进行短文本理解中的关键性技术,如图1.6所示。

tu1_6

在语义网络层,主要是构建理解短文本所需要的额外知识源,即知识库系统或者语义网络。知识库包含概念、实体、属性和关系,当关系足够丰富时,便构成了语义网络,它在许多应用中的作用日渐突出。其中,知识库中的概念和实体关系已经有较为充分的研究,因此本书主要介绍基于概率的属性提取与推导,从而完善整个语义网络,以支持其上的模型构建。

在概念化层,本书首先介绍利用语义网络构建单实体概念化模型。提出一种基于典型性和点互信息(PMI)的基本层次概念化(Basiclevel Conceptualization,BLC)方法,将单实体映射到一组最能刻画这个实体各种特征的概念上,并附着于概率值,以支持短文本概念化。基于概念化的短文本理解的目标是把短文本(如搜索引擎中的查询关键字)所包含的实体映射到语义网络中的概念上。其中需要解决的核心问题是利用短文本中有限的上下文对词义进行消歧。利用动词、形容词、实体及其属性,首先从大量的网络语料中挖掘出它们的各种关系。再利用这些挖掘得到的知识,提出一个整体概念化模型,使用基于随机游走的迭代算法将查询中的词语概念化。

利用上述两个针对单实体以及短文本的模型,可以进一步解决基于概念化的短文本主题词与修饰词检测。在短文本理解中,主题词与修饰词的检测是一个非常重要的问题。然而在许多情况下,短文本(如搜索引擎中的查询关键字等)并不遵守语法规则。现有方法通常基于粗粒度、领域相关,以及需要大量训练数据。本书将介绍一种基于语义的短文本主题词与修饰词检测方法。此方法首先从搜索日志中获取大量实体级别的“主题词修饰词”对,然后通过概念化模型将这些实体对归纳至概念级别,最后通过这些精细且精确的带权重的概念模式来进行主题词与修饰词的检测。

此外,单实体概念化模型也能够帮助解决基于概念化的词相似度计算。计算两个词之间的相似度对很多文本分析理解相关的应用至关重要。目前,这一任务主要有两种解决方法:基于知识的方法和基于文集的方法。然而,这些方法主要应用在单词之间的语义相似度计算,无法扩展到多个单词组成的多词表达式或文本。针对此问题,本书将介绍一种基于语义网络的词相似度计算方法。该语义网络基于十亿级的网页文本创建,包含百万级的概念。本书首先阐述如何将两个词映射到概念空间,进而介绍一种概念聚类的方法以提高相似度度量的准确性。

在应用层,利用概念化层所构建的各个模型,可以有效应用在不同的任务中,如广告关键字匹配、搜索排序、查询推荐、短文本聚类、智能问答系统、Web表格理解等。本书选取搜索广告应用场景,展示了一种基于概念化的海量竞价关键字匹配技术。搜索广告是搜索引擎的主要收入来源。广告商以关键字对他们的广告竞价,而搜索引擎在竞价关键字基础上通过匹配用户查询进行相关广告推送。由于查询和竞价关键字都是短文本并且不能由标准的词袋(bag-of-words)方法建模,大部分现有方法是利用用户行为数据(例如点击数据、会话数据等)去填补在匹配竞价关键字与用户查询上的语义差距。然而这种方法却不能处理没有很多用户行为数据的长尾查询。尽管它特殊罕见,长尾查询整体上却占据相当大的查询量,并且是搜索引擎收入的一个重要来源。本书将介绍一种匹配查询和竞价关键字的新方法。利用概率分类和大型同现网络,把短文本概念化成一组相关概念。为了处理大量查询和海量关键字,创建概念的语义索引:通过测量它们在概率空间的相似度,对于给定的查询选择相关的竞价关键字。

相关文章
|
9月前
|
机器学习/深度学习 自然语言处理
预训练语言模型:从BERT到GPT,NLP的新纪元
自然语言处理(NLP)近年来因预训练语言模型(PLMs)的崛起而发生巨大变革。BERT和GPT等模型在学术与工业界取得突破性进展。本文探讨PLMs原理、发展历程及其实际应用,涵盖文本分类、命名实体识别、问答系统等场景,并通过实战案例展示如何使用这些强大的工具解决复杂的NLP任务。
|
9月前
|
存储 算法 Java
算法系列之动态规划
动态规划(Dynamic Programming,简称DP)是一种用于解决复杂问题的算法设计技术。它通过将问题分解为更小的子问题,并存储这些子问题的解来避免重复计算,从而提高算法的效率。
372 4
算法系列之动态规划
|
8月前
|
存储 人工智能 云栖大会
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
|
搜索推荐 物联网 开发工具
基于OpenHarmony(开源鸿蒙)的智慧医疗综合应用系统
基于OpenHarmony(开源鸿蒙)的智慧医疗综合应用系统
712 5
|
机器学习/深度学习 自然语言处理 自动驾驶
深度学习之知识推理与深度学习结合
基于深度学习的知识推理是将深度学习模型与传统的知识表示和推理技术相结合,以实现更加智能和高效的决策和预测能力。
219 2
|
SQL 物联网 Serverless
Python集成EMQX
**EMQX**是一款实现了MQTT协议的高性能消息服务器软件,支持MQTT 3.1、3.1.1及5.0等协议,并兼容HTTP、QUIC和WebSocket等多种协议,确保广泛设备接入。作为全球下载量超千万的分布式物联网MQTT服务器,EMQX能支持单集群1亿设备连接,消息分发时延低于1毫秒,适用于构建关键业务的IoT平台与应用。EMQX具备SSL/TLS加密、双向认证、基于SQL的规则引擎等功能,并采用无主分布式架构确保高可用性和水平扩展性。提供开源版与企业版自托管方案及云服务选项,满足不同需求。通过Python SDK(如Paho-MQTT)可轻松集成,实现消息的发布与订阅。
392 0
|
JavaScript
Vue.js中使用作用域插槽实现自定义表格组件
Vue.js中使用作用域插槽实现自定义表格组件
254 1
|
弹性计算 大数据 测试技术
2024年阿里云服务器租用价格_包年/包月/按小时收费明细表
阿里云服务器租用价格表大全,云服务器一年费用、一个月价格以及1小时收费明细,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置,云服务器ECS可以选择经济型e实例、通用算力u1实例、ECS计算型c7、通用型g7、c8i、g8i等企业级实例规格。今天分享阿里云服务器租用费用最新报价,具体实例规格、配置及月付和年付租用优惠价格表。
323 2
|
NoSQL Linux C语言
GDB:强大的GNU调试器
GDB:强大的GNU调试器
336 0
|
并行计算 异构计算 Python
python代码torch.device("cuda:0" if torch.cuda.is_available() else "cpu")是什么意思?
【6月更文挑战第3天】python代码torch.device("cuda:0" if torch.cuda.is_available() else "cpu")是什么意思?
1758 4