多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval

简介: 多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval

Chap 4. Text Processing and Information Retrieval


▪ 文本信息检索是针对文本的信息检索技术

▪ 对其它媒体的信息检索提供支持

▪ 大部分网络搜索引擎的基础

▪ 应用场景:网页搜索、自动文摘、文本分类、舆情监控、问答查询、聊天机器人


▪ 信息检索模型

▪ 信息检索中的文本处理技术

▪ 文本处理

▪ 文本索引

▪ 相关反馈 & 查询扩展

▪ 提高检索性能

▪ 文本检索评测标准


▪ 信息检索(IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程

▪ 信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。通常可表示为四元组▪ <D, Q, F, R(qi, dj)>

▪ D: 文档集合▪ Q: 查询集合▪ F: 对文档和查询建模的框架▪ R(qi, dj): 排序函数

▪ 三种经典检索模型

▪ 布尔模型(Boolean)▪ 索引项的集合

▪ 向量空间模型▪ t维空间中的向量

▪ 概率模型


结语:

Information retrieval is described in terms of predictive text mining.

The methods can be considered variations of similarity-based

nearest-neighbor methods. Both key word search and full document

matching are examined. Different methods of measuring similarity are

considered including cosine similarity. Classical information

retrieval has evolved from retrieval of documents stored in databases

to web or intranet based documents. These document have richer

representations with links among documents. Link analysis for ranking

similarity of documents is described. Some performance issues for

computing similarity are considered including the specification of

inverted lists for indexing documents.


信息检索是用预测性文本挖掘来描述的。这些方法可以被认为是基于相似性的近邻方法的变化。对关键词搜索和完整的文档匹配都进行了研究。考虑了测量相似性的不同方法,包括余弦相似性。经典的信息检索已经从存储在数据库中的文档检索发展到基于网络或内部网的文档。这些文件有更丰富的表示,文件之间有链接。描述了用于排列文档相似度的链接分析。考虑了计算相似性的一些性能问题,包括用于索引文档的倒置列表的规范。

目录
相关文章
|
机器学习/深度学习 自然语言处理 达摩院
Rethinking Information Extraction :信息抽取的现状与未来
​ ##引言 从计算到感知再到认知是业内学者都认同的人工智能技术发展路径。机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,而信息抽取是获取知识的重要途径之一。 在具体的业务场景如搜索推荐,结构化的领域知识有利于实现细粒度文本理解,有利于实现精准的复杂问答,有利于
5406 0
|
5月前
|
机器学习/深度学习 编解码 自然语言处理
【虚拟人综述论文】Human-Computer Interaction System: A Survey of Talking-Head Generation
【虚拟人综述论文】Human-Computer Interaction System: A Survey of Talking-Head Generation
|
5月前
|
存储 数据库
PACS(Picture Archiving and Communications System)图像存储与传输系统源码
PACS(Picture Archiving and Communications System)图像存储与传输系统源码
73 0
|
机器学习/深度学习 存储 数据采集
DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled论文解读
我们提出了一个事件抽取框架,目的是从文档级财经新闻中抽取事件和事件提及。到目前为止,基于监督学习范式的方法在公共数据集中获得了最高的性能(如ACE 2005、KBP 2015)。这些方法严重依赖于人工标注的训练数据。
114 0
|
机器学习/深度学习 存储 数据挖掘
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
87 0
|
机器学习/深度学习 存储 传感器
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
90 0
|
机器学习/深度学习 存储 自然语言处理
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
120 0
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
|
存储 算法 数据挖掘
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
112 0
|
存储 算法 数据挖掘
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval
108 0
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval
|
自然语言处理 知识图谱
通用信息抽取 UIE(Universal Information Extraction)
通用信息抽取 UIE(Universal Information Extraction)
1014 0
通用信息抽取 UIE(Universal Information Extraction)