《 短文本数据理解》——导读

简介: 当今世界,每天都有数十亿的短文本产生,比如搜索查询、广告关键字、标签、微博、问答、聊天记录等。与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则;其次,短文本由于字数少,本身所包含的信息也较少。

daodu1
daodu2

‖前 言
当今世界,每天都有数十亿的短文本产生,比如搜索查询、广告关键字、标签、微博、问答、聊天记录等。与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则;其次,短文本由于字数少,本身所包含的信息也较少。前者使得传统的自然语言处理方法不能直接适用于短文本,而后者则意味着短文本理解不得不依赖于外部信息。简而言之,短文本具有较稀疏、噪声大、歧义多的特点,因而机器理解短文本面临极大的挑战。
而另一方面,随着近些年人工智能技术的重大突破,尤其是大规模知识图谱以及深度学习技术的出现,使得机器理解短文本出现新的曙光。研究者们提出了许多将文本转换成机器所能理解的内部表示方法。这些方法可以分为三类:1)隐性知识表示方法,如基于深度学习产生的向量表示法;2)半显性知识表示方法,如主题模型;3)显性知识表示方法,如概念化模型。这些方法各有优缺点。一般而言,前两类方法适用广泛,已有若干成熟应用,但其所产生的模型难以被人类理解,因此优化较为困难。而后一类方法正蓬勃发展,涌现出许多新的模型,并已在许多大型互联网公司如Google、微软内部使用。如果读者对这几类方法的概况有进一步了解的兴趣,可以参见本书作者在国际自然语言处理顶级学术会议ACL 2016上的一个专题教程(Tutorial)报告“Understanding Short Texts”(理解短文本)
本书主要介绍基于知识图谱进行显性短文本理解的方法,即由笔者提出的创新性概念化模型,并对不同情况下的概念化过程进行深入分析与探讨。本书许多章节的内容依托于发表在国际相关领域顶级学术会议或期刊上的技术论文,并已实际应用于微软的众多产品中(如必应搜索、广告系统、MSN查询推荐、Office 365等)。
尤为值得一提的是,笔者在微软亚洲研究院领导开发多年的大型知识库系统Probase也于近期由微软研究院正式发布。发布的正式名称为“Microsoft Concept Graph”(微软概念图谱),本书许多章节中的模型都是构建在这个概念图谱之上(书中称其为知识库、语义网络或Probase)。读者也可以从该发布网址中获得微软从海量互联网网页中所挖掘出的知识图谱数据,以便作进一步研究使用。
本书的内容和组织结构
本书内容依照数据层、模型层和应用层逐步展开介绍。其中,第2章为数据层,第3~6章为模型层,第7章为应用层。
本书组织结构如下:
第1章为“短文本理解及其应用”。主要介绍短文本理解的研究背景及意义,分析短文本理解的研究现状。
第2章为“基于概率的属性提取与推导”。主要介绍一种在语义网络层,为百万级的概念推导出属性的方法。
第3章为“单实体概念化模型”。介绍了一种基于典型性和点互信息(PMI)将单实体映射到概念空间的基本层次概念化(Basic-level Conceptualization,BLC)方法。
第4章为“基于概念化的短文本理解”。介绍一种基于概念化的查询理解方法,把短文本(如搜索引擎中的查询关键字)所包含的实体映射到概念空间上,从而支持机器进行进一步的计算。
第5章为“基于概念化的短文本主题词与修饰词检测”。基于概念化模型,将大量实体级别的“主题词修饰词”对映射为精细且精确的带权重的概念模式,进而进行主题词与修饰词的检测。
第6章为“基于概念化的词相似度计算”。利用概念化模型,将词映射为一种语义表示,从而计算任意两个词之间的语义相似度值。
第7章为“基于概念化的海量竞价关键字匹配”。展示了本书所介绍的模型在实际系统中的应用,把短文本概念化成一组相关概念,通过测量它们在概率空间的相似度,对于给定的查询选择相关的竞价关键字。
第8章为“短文本理解研究展望”。指出了短文本理解方向未来的研究工作。
本书读者对象
. 从事文本数据处理、自然语言处理等研究方向的高校教师及科研机构研究人员。
. 高校计算机、数学、统计学、信息管理等专业学生。
.从事互联网搜索、广告、文本理解、推荐系统、聊天机器人等相关研究开发工作的研究员、程序员、技术经理等。
. 对大数据、人工智能、自然语言处理、知识图谱、搜索引擎等技术感兴趣的读者。
致谢
本书内容凝结了笔者在微软亚洲研究院多年研究成果的结晶。在此衷心感谢我的导师孟小峰教授、文继荣教授、王海勋博士将我带入了学术的殿堂。在他们的指导下,我从一名普通的高校学生成长为一名合格的研究员,并且能在一些研究领域得到同行的认可。感谢我在微软亚洲研究院的同事李红松、宋阳秋、邵斌、宋睿华、窦志成、闫峻、纪蕾、马维英等,他们在我的研究中给予了热心帮助,与他们的讨论也对我的研究思路有很大的启发。感谢复旦大学肖仰华副教授、北京大学邹磊副教授、上海交通大学朱其立教授,与他们共同合作论文是一种荣幸。感谢在微软亚洲研究院实习过的李培培、Taesung Lee、王芳、胡志睿、华雯、赵可君、程健鹏、张大卫、郝泽慧、徐昊文、王鹏伟、李英杰等四十余位实习生,与他们一起讨论、工作,才有一个个将创新想法变为现实的可能。感谢胡莎、韩家龙同学,他们的睿智、热情、友善、诚恳时刻影响着我。感谢家人一直以来对我的支持。感谢我的妻子、我的父母、我的姐姐,他们的理解、支持与鼓励是我一步步前行的动力。感谢所有还未提及的老师、同学和朋友们!
谨以此书献给我正在牙牙学语的儿子王子航,感谢他带给我的无尽欢乐与幸福,希望他快乐成长!
本书涉及面广,内容丰富,参考文献众多。值得指出的是,在全书的撰写和课题的研究中,尽管投入了大量精力、付出了艰苦努力,但受知识水平所限,书中不当之处在所难免,诚恳希望读者批评指正并不吝赐教。

王仲远
2016年9月25日凌晨于北京西绦胡同
‖目 录
[第1章 短文本理解及其应用
  1.1 短文本理解
  1.2 短文本理解研究现状
    1.2.1 短文本理解模型概述
    1.2.2 短文本理解模型粒度分析
  1.3 短文本理解框架
[第2章 基于概率的属性提取与推导
  2.1 引言
  2.2 属性提取
    2.2.1 属性提取的整体框架
    2.2.2 概率isA网络
    2.2.3 基于概念和基于实体的属性提取
  2.3 属性得分推导
    2.3.1 典型度得分
    2.3.2 根据CB列表计算典型度
    2.3.3 根据IB列表计算典型度
    2.3.4 典型度聚合
    2.3.5 同义属性集合
  2.4 相关研究
  2.5 小结
第3章 单实体概念化模型
  3.1 引言
    3.1.1 基本层次类别
    3.1.2 应用
    3.1.3 BLC计算方法
  3.2 语义网络
  3.3 基本层次类别化
    3.3.1 典型性
    3.3.2 将典型性用于BLC
    3.3.3 将平滑典型性用于BLC
    3.3.4 将PMI用于BLC
    3.3.5 将Rep(e,c)用于BLC
  3.4 小结
第4章 基于概念化的短文本理解
  4.1 引言
  4.2 预备知识
    4.2.1 概念
    4.2.2 概念聚类
    4.2.3 属性
    4.2.4 整体框架和符号表示
  4.3 挖掘词汇关系
    4.3.1 概述
    4.3.2 解析
    4.3.3 P(z|t)推导
    4.3.4 P(c|t,z)推导
    4.3.5 语义网络
  4.4 查询理解
    4.4.1 方法概况
    4.4.2 算法
  4.5 小结
第5章 基于概念化的短文本主题词与修饰词检测
  5.1 引言
  5.2 整体框架
  5.3 非限定性修饰词挖掘
  5.4 限定性修饰词挖掘
    5.4.1 Probase:一个大规模的isA知识库
    5.4.2 实体级别主题词修饰词
    5.4.3 概念级别主题词修饰词
  5.5 主题词与修饰词检测
    5.5.1 解析
    5.5.2 针对两个组件的主题词修饰词检测
    5.5.3 针对两个以上组件的主题词修饰词检测
  5.6 相关工作
  5.7 小结
第6章 基于概念化的词相似度计算
  6.1 引言
  6.2 语义网络和同义词集合
  6.3 基本方法
    6.3.1 类型判别
    6.3.2 语境表示
    6.3.3 语境相似度
    6.3.4 讨论
  6.4 改进方法
    6.4.1 概念聚类
    6.4.2 Max-Max相似度计算方法
    6.4.3 聚类删减优化
  6.5 相关工作
  6.6 小结
第7章 基于概念化的海量竞价关键字匹配
  7.1 引言
  7.2 语义网络
  7.3 系统框架
  7.4 概念化
    7.4.1 实体检测
    7.4.2 词义推导
    7.4.3 消除歧义
  7.5 检索
    7.5.1 基于点击数据的候选竞价关键字选择
    7.5.2 基于概念的候选竞价关键字选择
    7.5.3 排名
  7.6 相关工作
  7.7 小结
第8章 短文本理解研究展望
  8.1 知识语义网
  8.2 显性知识和隐性知识的结合
参考文献

相关文章
|
机器学习/深度学习 算法 数据挖掘
【机器学习】算法术语、决策函数、概率模型、神经网络的详细讲解(图文解释)
【机器学习】算法术语、决策函数、概率模型、神经网络的详细讲解(图文解释)
1154 1
|
分布式数据库 Hbase
HBase StochasticLoadBalancer组件介绍
HBase StochasticLoadBalancer组件介绍。
3282 0
|
4月前
|
人工智能 程序员 API
GPT-5.2来了,老金详细给你说说它为什么是王
OpenAI悄然上线GPT-5.2,因谷歌Gemini 3发布引发“红色警报”。新模型提升显著:幻觉减少38%,上下文达40万token,支持长文档精准处理;ARC-AGI-2与GDPval评测显示其真实推理与工作能力大幅增强,尤其适合金融、法律等专业场景。推出Instant、Thinking、Pro三版本,满足不同需求。虽无惊艳发布,但聚焦打工人实际应用,标志着AI向通用生产力工具迈进。
606 11
|
10月前
|
API C++
甩开卡顿!HarmonyOS丢帧问题超详细拆解手册
这是一本针对HarmonyOS丢帧问题的超详细调优指南,从渲染流水线原理到实战优化全面解析。文章拆解了应用侧、Render Service和屏幕显示三大核心模块,结合60Hz/90Hz/120Hz帧率要求,深入分析卡顿原因。通过四步法(识别、录制、定位、优化),提供核弹级性能优化方案,涵盖列表卡顿、动画掉帧、布局臃肿等常见问题,并总结避坑圣经,助你轻松甩开卡顿,打造丝滑体验!
|
存储 算法 Java
如何保证 hashCode()方法的唯一性
在Java中,`hashCode()` 方法用于生成对象的哈希码,是实现数据结构如哈希表的基础。虽然完全保证 `hashCode()` 的唯一性几乎不可能,但通过合理设计,如结合对象的关键属性,可以极大减少哈希冲突,提高程序效率和稳定性。
445 9
|
Java 编译器 测试技术
全面理解Maven Compiler Plugin-Maven编译插件
【10月更文挑战第16天】
3933 1
|
供应链 数据挖掘 API
电商API接口介绍——sku接口概述
商品SKU(Stock Keeping Unit)接口是电商API接口中的一种,专门用于获取商品的SKU信息。SKU是库存量单位,用于区分同一商品的不同规格、颜色、尺寸等属性。通过商品SKU接口,开发者可以获取商品的SKU列表、SKU属性、库存数量等详细信息。
|
Android开发 C++
Android S HAL库的编译
Android S HAL库的编译
296 0
|
JSON 安全 API
|
机器学习/深度学习 人工智能
SalUn:基于梯度权重显著性的机器反学习方法,实现图像分类和生成的精确反学习
【4月更文挑战第29天】SalUn是一种新的机器反学习方法,专注于图像分类和生成的精确反学习。通过关注权重的梯度显著性,SalUn能更准确、高效地从模型中移除特定数据影响,提高反学习精度并保持稳定性。适用于多种任务,包括图像生成,且在条件扩散模型中表现优越。但计算权重梯度的需求可能限制其在大规模模型的应用,且在数据高度相关时效果可能不理想。[链接](https://arxiv.org/abs/2310.12508)
635 1

热门文章

最新文章

下一篇
开通oss服务