工作小结20140504-话题发现

简介:          整个4月份主要工作是整理关于话题发现(Topic Detection)的资料,主要看了一些论文,看得不是很系统,也不是很全面,终究还是凑足一万字交给老师了。

         整个4月份主要工作是整理关于话题发现(Topic Detection)的资料,主要看了一些论文,看得不是很系统,也不是很全面,终究还是凑足一万字交给老师了。

         大致看了一些论文,主流方法感觉还是主题模型(Topic Model),主题、话题傻傻分不清楚啊!Wikipedia翻译的是主题模型,所以当与Model连用时,就权且翻译为主题吧,但英语真心没差。

        话题发现,先谈谈其起源,最早是源于1996年由DARPA发起的TDT(Topic Detection and Tracking)项目,有UMass Amherst,CMU等参与,最后一届(2005)TDT项目的评测有国内的东北大学和中科院计算所。项目的背景是研究新闻报道中的话题,关于TDT的详细介绍可以参看J Allan的Topic detection and tracking pilot study final report

        TDT项目中的话题定义是事件(Event)或活动(Activity)及其相关事件或活动。但最后TDT项目中的话题就被狭义地理解为事件了。

        TDT项目的任务可以简述为下图:

                                                                             TDT流程图

        TDT项目中的数据是新闻报道(News Story)流,第一个任务是对数据流进行切分(Segmentation),分割为一篇篇的新闻报道;接下来是话题发现,TDT中使用的多是聚类方法,就是将相似的新闻报道进行聚类得到关于某个话题的报道集,而话题发现步骤又因数据的不同可以分为在线(Online)话题发现和回溯(Retrospective)话题发现;针对在线数据,代表性方法有Single Pass Incremental Clustering(单遍增量聚类),针对回溯数据,代表性方法有GAC(Group Average Clustering,基于平均分组的层次聚类方法)。上面的几个任务为最初TDT提出的,后来又添加了首次报道检测(First Story Detection),报道相关性检测(The link detection)等任务。

         TDT评价指标除了比较常见的准确率、召回率、F值等,还定义了代价函数(Cost Function)。

         TDT项目大约在2005年结束,项目的有关网址:

         TDT评测http://www.itl.nist.gov/iad/mig//tests/tdt/

         TDT语料https://www.ldc.upenn.edu

         TDT算比较早的方法,并且,仔细看与我们所理解的话题发现还不太一样,所以已经有些过时,这两年研究比较多的就是主题模型,主要集中在LDA(Latent Dirichlet Allocation)。主题模型是基于统计学的方法,所以理解起来比较直观,比较有说服力。

        主题模型是将传统的以词项(Term)表示的文档映射到语义空间,用抽象的话题来表示文档,从这个角度看,主题模型是文档的一种降维表示。谈起降维,最初使用的是矩阵分解(代表性的方法是SVD,Singular Value Decomposition,奇异值分解)的方法,这是从线性代数的角度解决的,没有用到统计学方法,所以还算不上真正意义的主题模型。后来引入统计学方法,才逐渐发展为今天的主题模型。

        主题模型认为一篇文档有多个话题组成,而每个话题又可以表示为一组词项的概率分布,按照主题模型的思路,我们要写一篇文章,先要确定一组话题,再确定文档中每一个位置的词,也就是主题模型为我们规定了一篇文档应该如何生成,所以说主题模型是一个生成模型(Generative Model)。我们心中会有疑问,这跟话题如何产生关联,主题前面提到,生成文章要先选话题,这些话题在真实的文档中并不存在,存在的只是一个个的词。实际上我们拿到文章的时候,是生成过程完成后获得的结果,我们要找隐含的话题,就是要将生成过程复现,通过采样来推测生成过程中的话题分布,来达到话题发现的目的。

        主题模型的生成过程可以以文字或图模型描述,如下:

        对语料中的每一篇文档m

        (1) 由超参数α采样主题概率分布θ

        对于每一个主题z

        (2) 有超参数β采样词项概率分布φ

        对文档m中的第n个词

        (3) 由主题分布θ选择隐含主题z‘

        (4) 有词项分布φ生成一个单词w

                                                                       LDA的图模型表示

        α和β是Dirichlet分布的参数,通常是固定值且对称分布(symmetric),用标量表示。 θ表示文档的主题概率分布, φ表示主题的词项概率分布,θ和φ作为多项式分布的参数用于生成主题和单词。z表示主题,w表示单词,M表示文档数目,N表示文档长度。





目录
相关文章
|
8天前
|
缓存 人工智能 自然语言处理
我对比了8个Claude API中转站,踩了不少坑,总结给你
本文是个人开发者耗时1周实测的8大Claude中转平台横向评测,聚焦Claude Code真实体验:以加权均价(¥/M token)、内部汇率、缓存支持、模型真实性及稳定性为核心指标。
3146 20
|
20天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
17292 56
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
19小时前
|
SQL 人工智能 弹性计算
阿里云发布 Agentic NDR,威胁检测与响应进入智能体时代
欢迎前往阿里云云防火墙控制台体验!
1141 2
|
3天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
1494 6
|
15天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
3135 29
|
2天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
1034 3
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
3天前
|
机器学习/深度学习 缓存 测试技术
DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型
DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。
1649 6
|
4天前
|
人工智能 测试技术 API
阿里Qwen3.6-27B正式开源:网友直呼“太牛了”!
阿里云千问3.6系列重磅开源Qwen3.6-27B稠密大模型!官网:https://t.aliyun.com/U/JbblVp 仅270亿参数,编程能力媲美千亿模型,在SWE-bench等权威基准中表现卓越。支持多模态理解、本地部署及OpenClaw等智能体集成,已开放Hugging Face与ModelScope下载。