‖前 言
当今世界,每天都有数十亿的短文本产生,比如搜索查询、广告关键字、标签、微博、问答、聊天记录等。与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则;其次,短文本由于字数少,本身所包含的信息也较少。前者使得传统的自然语言处理方法不能直接适用于短文本,而后者则意味着短文本理解不得不依赖于外部信息。简而言之,短文本具有较稀疏、噪声大、歧义多的特点,因而机器理解短文本面临极大的挑战。
而另一方面,随着近些年人工智能技术的重大突破,尤其是大规模知识图谱以及深度学习技术的出现,使得机器理解短文本出现新的曙光。研究者们提出了许多将文本转换成机器所能理解的内部表示方法。这些方法可以分为三类:1)隐性知识表示方法,如基于深度学习产生的向量表示法;2)半显性知识表示方法,如主题模型;3)显性知识表示方法,如概念化模型。这些方法各有优缺点。一般而言,前两类方法适用广泛,已有若干成熟应用,但其所产生的模型难以被人类理解,因此优化较为困难。而后一类方法正蓬勃发展,涌现出许多新的模型,并已在许多大型互联网公司如Google、微软内部使用。如果读者对这几类方法的概况有进一步了解的兴趣,可以参见本书作者在国际自然语言处理顶级学术会议ACL 2016上的一个专题教程(Tutorial)报告“Understanding Short Texts”(理解短文本)
本书主要介绍基于知识图谱进行显性短文本理解的方法,即由笔者提出的创新性概念化模型,并对不同情况下的概念化过程进行深入分析与探讨。本书许多章节的内容依托于发表在国际相关领域顶级学术会议或期刊上的技术论文,并已实际应用于微软的众多产品中(如必应搜索、广告系统、MSN查询推荐、Office 365等)。
尤为值得一提的是,笔者在微软亚洲研究院领导开发多年的大型知识库系统Probase也于近期由微软研究院正式发布。发布的正式名称为“Microsoft Concept Graph”(微软概念图谱),本书许多章节中的模型都是构建在这个概念图谱之上(书中称其为知识库、语义网络或Probase)。读者也可以从该发布网址中获得微软从海量互联网网页中所挖掘出的知识图谱数据,以便作进一步研究使用。
本书的内容和组织结构
本书内容依照数据层、模型层和应用层逐步展开介绍。其中,第2章为数据层,第3~6章为模型层,第7章为应用层。
本书组织结构如下:
第1章为“短文本理解及其应用”。主要介绍短文本理解的研究背景及意义,分析短文本理解的研究现状。
第2章为“基于概率的属性提取与推导”。主要介绍一种在语义网络层,为百万级的概念推导出属性的方法。
第3章为“单实体概念化模型”。介绍了一种基于典型性和点互信息(PMI)将单实体映射到概念空间的基本层次概念化(Basic-level Conceptualization,BLC)方法。
第4章为“基于概念化的短文本理解”。介绍一种基于概念化的查询理解方法,把短文本(如搜索引擎中的查询关键字)所包含的实体映射到概念空间上,从而支持机器进行进一步的计算。
第5章为“基于概念化的短文本主题词与修饰词检测”。基于概念化模型,将大量实体级别的“主题词修饰词”对映射为精细且精确的带权重的概念模式,进而进行主题词与修饰词的检测。
第6章为“基于概念化的词相似度计算”。利用概念化模型,将词映射为一种语义表示,从而计算任意两个词之间的语义相似度值。
第7章为“基于概念化的海量竞价关键字匹配”。展示了本书所介绍的模型在实际系统中的应用,把短文本概念化成一组相关概念,通过测量它们在概率空间的相似度,对于给定的查询选择相关的竞价关键字。
第8章为“短文本理解研究展望”。指出了短文本理解方向未来的研究工作。
本书读者对象
. 从事文本数据处理、自然语言处理等研究方向的高校教师及科研机构研究人员。
. 高校计算机、数学、统计学、信息管理等专业学生。
.从事互联网搜索、广告、文本理解、推荐系统、聊天机器人等相关研究开发工作的研究员、程序员、技术经理等。
. 对大数据、人工智能、自然语言处理、知识图谱、搜索引擎等技术感兴趣的读者。
致谢
本书内容凝结了笔者在微软亚洲研究院多年研究成果的结晶。在此衷心感谢我的导师孟小峰教授、文继荣教授、王海勋博士将我带入了学术的殿堂。在他们的指导下,我从一名普通的高校学生成长为一名合格的研究员,并且能在一些研究领域得到同行的认可。感谢我在微软亚洲研究院的同事李红松、宋阳秋、邵斌、宋睿华、窦志成、闫峻、纪蕾、马维英等,他们在我的研究中给予了热心帮助,与他们的讨论也对我的研究思路有很大的启发。感谢复旦大学肖仰华副教授、北京大学邹磊副教授、上海交通大学朱其立教授,与他们共同合作论文是一种荣幸。感谢在微软亚洲研究院实习过的李培培、Taesung Lee、王芳、胡志睿、华雯、赵可君、程健鹏、张大卫、郝泽慧、徐昊文、王鹏伟、李英杰等四十余位实习生,与他们一起讨论、工作,才有一个个将创新想法变为现实的可能。感谢胡莎、韩家龙同学,他们的睿智、热情、友善、诚恳时刻影响着我。感谢家人一直以来对我的支持。感谢我的妻子、我的父母、我的姐姐,他们的理解、支持与鼓励是我一步步前行的动力。感谢所有还未提及的老师、同学和朋友们!
谨以此书献给我正在牙牙学语的儿子王子航,感谢他带给我的无尽欢乐与幸福,希望他快乐成长!
本书涉及面广,内容丰富,参考文献众多。值得指出的是,在全书的撰写和课题的研究中,尽管投入了大量精力、付出了艰苦努力,但受知识水平所限,书中不当之处在所难免,诚恳希望读者批评指正并不吝赐教。
王仲远
2016年9月25日凌晨于北京西绦胡同
‖目 录
[第1章 短文本理解及其应用
1.1 短文本理解](https://yq.aliyun.com/articles/89800)
1.2 短文本理解研究现状
1.2.1 短文本理解模型概述
1.2.2 短文本理解模型粒度分析
1.3 短文本理解框架
[第2章 基于概率的属性提取与推导
2.1 引言](https://yq.aliyun.com/articles/89808)
2.2 属性提取
2.2.1 属性提取的整体框架
2.2.2 概率isA网络
2.2.3 基于概念和基于实体的属性提取
2.3 属性得分推导
2.3.1 典型度得分
2.3.2 根据CB列表计算典型度
2.3.3 根据IB列表计算典型度
2.3.4 典型度聚合
2.3.5 同义属性集合
2.4 相关研究
2.5 小结
第3章 单实体概念化模型
3.1 引言
3.1.1 基本层次类别
3.1.2 应用
3.1.3 BLC计算方法
3.2 语义网络
3.3 基本层次类别化
3.3.1 典型性
3.3.2 将典型性用于BLC
3.3.3 将平滑典型性用于BLC
3.3.4 将PMI用于BLC
3.3.5 将Rep(e,c)用于BLC
3.4 小结
第4章 基于概念化的短文本理解
4.1 引言
4.2 预备知识
4.2.1 概念
4.2.2 概念聚类
4.2.3 属性
4.2.4 整体框架和符号表示
4.3 挖掘词汇关系
4.3.1 概述
4.3.2 解析
4.3.3 P(z|t)推导
4.3.4 P(c|t,z)推导
4.3.5 语义网络
4.4 查询理解
4.4.1 方法概况
4.4.2 算法
4.5 小结
第5章 基于概念化的短文本主题词与修饰词检测
5.1 引言
5.2 整体框架
5.3 非限定性修饰词挖掘
5.4 限定性修饰词挖掘
5.4.1 Probase:一个大规模的isA知识库
5.4.2 实体级别主题词修饰词
5.4.3 概念级别主题词修饰词
5.5 主题词与修饰词检测
5.5.1 解析
5.5.2 针对两个组件的主题词修饰词检测
5.5.3 针对两个以上组件的主题词修饰词检测
5.6 相关工作
5.7 小结
第6章 基于概念化的词相似度计算
6.1 引言
6.2 语义网络和同义词集合
6.3 基本方法
6.3.1 类型判别
6.3.2 语境表示
6.3.3 语境相似度
6.3.4 讨论
6.4 改进方法
6.4.1 概念聚类
6.4.2 Max-Max相似度计算方法
6.4.3 聚类删减优化
6.5 相关工作
6.6 小结
第7章 基于概念化的海量竞价关键字匹配
7.1 引言
7.2 语义网络
7.3 系统框架
7.4 概念化
7.4.1 实体检测
7.4.2 词义推导
7.4.3 消除歧义
7.5 检索
7.5.1 基于点击数据的候选竞价关键字选择
7.5.2 基于概念的候选竞价关键字选择
7.5.3 排名
7.6 相关工作
7.7 小结
第8章 短文本理解研究展望
8.1 知识语义网
8.2 显性知识和隐性知识的结合
参考文献