工作小结20140504-话题发现

简介:          整个4月份主要工作是整理关于话题发现(Topic Detection)的资料,主要看了一些论文,看得不是很系统,也不是很全面,终究还是凑足一万字交给老师了。

         整个4月份主要工作是整理关于话题发现(Topic Detection)的资料,主要看了一些论文,看得不是很系统,也不是很全面,终究还是凑足一万字交给老师了。

         大致看了一些论文,主流方法感觉还是主题模型(Topic Model),主题、话题傻傻分不清楚啊!Wikipedia翻译的是主题模型,所以当与Model连用时,就权且翻译为主题吧,但英语真心没差。

        话题发现,先谈谈其起源,最早是源于1996年由DARPA发起的TDT(Topic Detection and Tracking)项目,有UMass Amherst,CMU等参与,最后一届(2005)TDT项目的评测有国内的东北大学和中科院计算所。项目的背景是研究新闻报道中的话题,关于TDT的详细介绍可以参看J Allan的Topic detection and tracking pilot study final report

        TDT项目中的话题定义是事件(Event)或活动(Activity)及其相关事件或活动。但最后TDT项目中的话题就被狭义地理解为事件了。

        TDT项目的任务可以简述为下图:

                                                                             TDT流程图

        TDT项目中的数据是新闻报道(News Story)流,第一个任务是对数据流进行切分(Segmentation),分割为一篇篇的新闻报道;接下来是话题发现,TDT中使用的多是聚类方法,就是将相似的新闻报道进行聚类得到关于某个话题的报道集,而话题发现步骤又因数据的不同可以分为在线(Online)话题发现和回溯(Retrospective)话题发现;针对在线数据,代表性方法有Single Pass Incremental Clustering(单遍增量聚类),针对回溯数据,代表性方法有GAC(Group Average Clustering,基于平均分组的层次聚类方法)。上面的几个任务为最初TDT提出的,后来又添加了首次报道检测(First Story Detection),报道相关性检测(The link detection)等任务。

         TDT评价指标除了比较常见的准确率、召回率、F值等,还定义了代价函数(Cost Function)。

         TDT项目大约在2005年结束,项目的有关网址:

         TDT评测http://www.itl.nist.gov/iad/mig//tests/tdt/

         TDT语料https://www.ldc.upenn.edu

         TDT算比较早的方法,并且,仔细看与我们所理解的话题发现还不太一样,所以已经有些过时,这两年研究比较多的就是主题模型,主要集中在LDA(Latent Dirichlet Allocation)。主题模型是基于统计学的方法,所以理解起来比较直观,比较有说服力。

        主题模型是将传统的以词项(Term)表示的文档映射到语义空间,用抽象的话题来表示文档,从这个角度看,主题模型是文档的一种降维表示。谈起降维,最初使用的是矩阵分解(代表性的方法是SVD,Singular Value Decomposition,奇异值分解)的方法,这是从线性代数的角度解决的,没有用到统计学方法,所以还算不上真正意义的主题模型。后来引入统计学方法,才逐渐发展为今天的主题模型。

        主题模型认为一篇文档有多个话题组成,而每个话题又可以表示为一组词项的概率分布,按照主题模型的思路,我们要写一篇文章,先要确定一组话题,再确定文档中每一个位置的词,也就是主题模型为我们规定了一篇文档应该如何生成,所以说主题模型是一个生成模型(Generative Model)。我们心中会有疑问,这跟话题如何产生关联,主题前面提到,生成文章要先选话题,这些话题在真实的文档中并不存在,存在的只是一个个的词。实际上我们拿到文章的时候,是生成过程完成后获得的结果,我们要找隐含的话题,就是要将生成过程复现,通过采样来推测生成过程中的话题分布,来达到话题发现的目的。

        主题模型的生成过程可以以文字或图模型描述,如下:

        对语料中的每一篇文档m

        (1) 由超参数α采样主题概率分布θ

        对于每一个主题z

        (2) 有超参数β采样词项概率分布φ

        对文档m中的第n个词

        (3) 由主题分布θ选择隐含主题z‘

        (4) 有词项分布φ生成一个单词w

                                                                       LDA的图模型表示

        α和β是Dirichlet分布的参数,通常是固定值且对称分布(symmetric),用标量表示。 θ表示文档的主题概率分布, φ表示主题的词项概率分布,θ和φ作为多项式分布的参数用于生成主题和单词。z表示主题,w表示单词,M表示文档数目,N表示文档长度。





目录
相关文章
|
9月前
【负责指导、培训普通开发工程师工作经验之谈】
【负责指导、培训普通开发工程师工作经验之谈】
|
2月前
|
算法 C语言
关于技术面试一些有用的经历
关于技术面试一些有用的经历
25 0
|
12月前
|
机器学习/深度学习 安全 算法
对程序员来说,有价值的工作
对程序员来说,有价值的工作
237 1
|
前端开发 测试技术 程序员
程序员成长第八篇:做好测试工作
程序员成长第八篇:做好测试工作
198 0
|
搜索推荐 架构师 测试技术
|
架构师
为什么大部分人做不了架构师?这2点是关键
阿里妹导读:选择有时候比努力重要,真正厉害的人不仅仅是埋头苦干,而是会利用好的思维方式、好的方法,看穿事物的本质,顺势而为,找到事情的最优解,并懂得举一反三。架构师是程序员的目标之一,但大多数程序员无法成为架构师。
咱们在讨论的时候能不能先确定一个明确的范围呢?最好能把自己的经历简单说一下。
      昨天晚上看到了三层,又见三层。别了,三层 有点想法,在这里说一下。和周六活动的讨论没有什么关系,特此声明!       讨论是好的,但是范围不明确的话,就很容易跑题,也容易带出来火药味儿。
739 0
|
程序员
【观点】如何管理你的程序员
译文链接:外刊IT评论
689 0
|
架构师 Java 程序员
程序员到高级架构师,必须经历的三个阶段!
每个程序员、或者说每个工作者都应该有自己的职业规划,如果你不是富二代,不是官二代,也没有职业规划,希望你可以思考一下自己的将来。
1704 0
|
XML 开发工具 数据格式