工作小结20140504-话题发现-阿里云开发者社区

工作小结20140504-话题发现

2014-05-04 761

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 整个4月份主要工作是整理关于话题发现(Topic Detection)的资料，主要看了一些论文，看得不是很系统，也不是很全面，终究还是凑足一万字交给老师了。

整个4月份主要工作是整理关于话题发现(Topic Detection)的资料，主要看了一些论文，看得不是很系统，也不是很全面，终究还是凑足一万字交给老师了。

大致看了一些论文，主流方法感觉还是主题模型(Topic Model)，主题、话题傻傻分不清楚啊！Wikipedia翻译的是主题模型，所以当与Model连用时，就权且翻译为主题吧，但英语真心没差。

话题发现，先谈谈其起源，最早是源于1996年由DARPA发起的TDT(Topic Detection and Tracking)项目，有UMass Amherst，CMU等参与，最后一届(2005)TDT项目的评测有国内的东北大学和中科院计算所。项目的背景是研究新闻报道中的话题，关于TDT的详细介绍可以参看J Allan的Topic detection and tracking pilot study final report。

TDT项目中的话题定义是事件(Event)或活动(Activity)及其相关事件或活动。但最后TDT项目中的话题就被狭义地理解为事件了。

TDT项目的任务可以简述为下图：

TDT流程图

TDT项目中的数据是新闻报道(News Story)流，第一个任务是对数据流进行切分(Segmentation)，分割为一篇篇的新闻报道；接下来是话题发现，TDT中使用的多是聚类方法，就是将相似的新闻报道进行聚类得到关于某个话题的报道集，而话题发现步骤又因数据的不同可以分为在线(Online)话题发现和回溯(Retrospective)话题发现；针对在线数据，代表性方法有Single Pass Incremental Clustering(单遍增量聚类)，针对回溯数据，代表性方法有GAC(Group Average Clustering，基于平均分组的层次聚类方法)。上面的几个任务为最初TDT提出的，后来又添加了首次报道检测(First Story Detection)，报道相关性检测(The link detection)等任务。

TDT评价指标除了比较常见的准确率、召回率、F值等，还定义了代价函数(Cost Function)。

TDT项目大约在2005年结束，项目的有关网址：

TDT评测http://www.itl.nist.gov/iad/mig//tests/tdt/

TDT语料https://www.ldc.upenn.edu

TDT算比较早的方法，并且，仔细看与我们所理解的话题发现还不太一样，所以已经有些过时，这两年研究比较多的就是主题模型，主要集中在LDA(Latent Dirichlet Allocation)。主题模型是基于统计学的方法，所以理解起来比较直观，比较有说服力。

主题模型是将传统的以词项(Term)表示的文档映射到语义空间，用抽象的话题来表示文档，从这个角度看，主题模型是文档的一种降维表示。谈起降维，最初使用的是矩阵分解(代表性的方法是SVD，Singular Value Decomposition，奇异值分解)的方法，这是从线性代数的角度解决的，没有用到统计学方法，所以还算不上真正意义的主题模型。后来引入统计学方法，才逐渐发展为今天的主题模型。

主题模型认为一篇文档有多个话题组成，而每个话题又可以表示为一组词项的概率分布，按照主题模型的思路，我们要写一篇文章，先要确定一组话题，再确定文档中每一个位置的词，也就是主题模型为我们规定了一篇文档应该如何生成，所以说主题模型是一个生成模型(Generative Model)。我们心中会有疑问，这跟话题如何产生关联，主题前面提到，生成文章要先选话题，这些话题在真实的文档中并不存在，存在的只是一个个的词。实际上我们拿到文章的时候，是生成过程完成后获得的结果，我们要找隐含的话题，就是要将生成过程复现，通过采样来推测生成过程中的话题分布，来达到话题发现的目的。

主题模型的生成过程可以以文字或图模型描述，如下：

对语料中的每一篇文档m

(1) 由超参数α采样主题概率分布θ

对于每一个主题z

(2) 有超参数β采样词项概率分布φ

对文档m中的第n个词

(3) 由主题分布θ选择隐含主题z‘

(4) 有词项分布φ生成一个单词w

LDA的图模型表示

α和β是Dirichlet分布的参数，通常是固定值且对称分布(symmetric)，用标量表示。 θ表示文档的主题概率分布， φ表示主题的词项概率分布，θ和φ作为多项式分布的参数用于生成主题和单词。z表示主题，w表示单词，M表示文档数目，N表示文档长度。

工作小结20140504-话题发现

热门文章

最新文章

相关课程

相关电子书

相关实验场景