多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval

简介: 多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval

Chap 4. Text Processing and Information Retrieval


▪ 文本信息检索是针对文本的信息检索技术

▪ 对其它媒体的信息检索提供支持

▪ 大部分网络搜索引擎的基础

▪ 应用场景:网页搜索、自动文摘、文本分类、舆情监控、问答查询、聊天机器人


▪ 信息检索模型

▪ 信息检索中的文本处理技术

▪ 文本处理

▪ 文本索引

▪ 相关反馈 & 查询扩展

▪ 提高检索性能

▪ 文本检索评测标准


▪ 信息检索(IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程

▪ 信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。通常可表示为四元组▪ <D, Q, F, R(qi, dj)>

▪ D: 文档集合▪ Q: 查询集合▪ F: 对文档和查询建模的框架▪ R(qi, dj): 排序函数

▪ 三种经典检索模型

▪ 布尔模型(Boolean)▪ 索引项的集合

▪ 向量空间模型▪ t维空间中的向量

▪ 概率模型


结语:

Information retrieval is described in terms of predictive text mining.

The methods can be considered variations of similarity-based

nearest-neighbor methods. Both key word search and full document

matching are examined. Different methods of measuring similarity are

considered including cosine similarity. Classical information

retrieval has evolved from retrieval of documents stored in databases

to web or intranet based documents. These document have richer

representations with links among documents. Link analysis for ranking

similarity of documents is described. Some performance issues for

computing similarity are considered including the specification of

inverted lists for indexing documents.


信息检索是用预测性文本挖掘来描述的。这些方法可以被认为是基于相似性的近邻方法的变化。对关键词搜索和完整的文档匹配都进行了研究。考虑了测量相似性的不同方法,包括余弦相似性。经典的信息检索已经从存储在数据库中的文档检索发展到基于网络或内部网的文档。这些文件有更丰富的表示,文件之间有链接。描述了用于排列文档相似度的链接分析。考虑了计算相似性的一些性能问题,包括用于索引文档的倒置列表的规范。

目录
相关文章
|
机器学习/深度学习 自然语言处理 达摩院
Rethinking Information Extraction :信息抽取的现状与未来
​ ##引言 从计算到感知再到认知是业内学者都认同的人工智能技术发展路径。机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,而信息抽取是获取知识的重要途径之一。 在具体的业务场景如搜索推荐,结构化的领域知识有利于实现细粒度文本理解,有利于实现精准的复杂问答,有利于
4708 0
|
5月前
|
存储 数据库
PACS(Picture Archiving and Communications System)图像存储与传输系统源码
PACS(Picture Archiving and Communications System)图像存储与传输系统源码
36 0
|
9月前
|
机器学习/深度学习 数据挖掘
ACL2023 - An AMR-based Link Prediction Approach for Document-level Event Argument Extraction
最近的工作引入了用于文档级事件论元提取(文档级EAE)的抽象语义表示(AMR),因为AMR提供了对复杂语义结构的有用解释,并有助于捕获长距离依赖关系
102 0
|
9月前
|
自然语言处理
【论文速递】ACL 2022 - Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extr
在本文中,我们提出了一个既有效又高效的模型PAIE,用于句子级和文档级的事件论元抽取(EAE),即使在缺乏训练数据的情况下也能很好地泛化。一方面,PAIE利用抽取目标的提示调优,以充分利用预训练语言模型(PLMs)的优势。
44 0
|
机器学习/深度学习 存储 数据挖掘
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
64 0
|
存储 算法 数据挖掘
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval
79 0
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval
|
存储 算法 数据挖掘
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
82 0
|
机器学习/深度学习 存储 传感器
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
67 0
|
机器学习/深度学习 存储 自然语言处理
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
87 0
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
|
自然语言处理 知识图谱
通用信息抽取 UIE(Universal Information Extraction)
通用信息抽取 UIE(Universal Information Extraction)
840 0
通用信息抽取 UIE(Universal Information Extraction)