Chap 4. Text Processing and Information Retrieval
▪ 文本信息检索是针对文本的信息检索技术
▪ 对其它媒体的信息检索提供支持
▪ 大部分网络搜索引擎的基础
▪ 应用场景:网页搜索、自动文摘、文本分类、舆情监控、问答查询、聊天机器人
▪ 信息检索模型
▪ 信息检索中的文本处理技术
▪ 文本处理
▪ 文本索引
▪ 相关反馈 & 查询扩展
▪ 提高检索性能
▪ 文本检索评测标准
▪ 信息检索(IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程
▪ 信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。通常可表示为四元组▪ <D, Q, F, R(qi, dj)>
▪ D: 文档集合▪ Q: 查询集合▪ F: 对文档和查询建模的框架▪ R(qi, dj): 排序函数
▪ 三种经典检索模型
▪ 布尔模型(Boolean)▪ 索引项的集合
▪ 向量空间模型▪ t维空间中的向量
▪ 概率模型
结语:
Information retrieval is described in terms of predictive text mining.
The methods can be considered variations of similarity-based
nearest-neighbor methods. Both key word search and full document
matching are examined. Different methods of measuring similarity are
considered including cosine similarity. Classical information
retrieval has evolved from retrieval of documents stored in databases
to web or intranet based documents. These document have richer
representations with links among documents. Link analysis for ranking
similarity of documents is described. Some performance issues for
computing similarity are considered including the specification of
inverted lists for indexing documents.
信息检索是用预测性文本挖掘来描述的。这些方法可以被认为是基于相似性的近邻方法的变化。对关键词搜索和完整的文档匹配都进行了研究。考虑了测量相似性的不同方法,包括余弦相似性。经典的信息检索已经从存储在数据库中的文档检索发展到基于网络或内部网的文档。这些文件有更丰富的表示,文件之间有链接。描述了用于排列文档相似度的链接分析。考虑了计算相似性的一些性能问题,包括用于索引文档的倒置列表的规范。