信息检索 信息检索指的是人机交互(HCI),当我们使用机器搜索某些信息时,会发现与我们的搜索查询相匹配的信息对象(内容)。检索就是检索存储在数据库或计算机中与用户需求相关的信息。用户的查询会与一组文档进行匹配,以找到相关文档。请注意,这种结果可以是文档集的一种形式。 初始文档/文本集和 “检索什么 “的查询这两件事都是信息检索系统非常重要的部分。它是从一组文档中搜索和查找相关文档。信息检索使用的方法和技术多种多样。在信息检索系统中,我们使用自动化的信息检索系统来减少信息超载。 精确度 是指检索到的与用户信息需求相关的文档数量除以检索到的文档总数。 回收率 - 是指检索到的与用户信息需求相关的文档数量除以检索到的文档总数。 是指检索到的与用户信息需求相关的文档数量除以整个文档集中相关文档的总数。 信息检索中使用的各种技术包括: 向量空间检索 布尔空间检索 术语-文档矩阵 基于块排序的索引 Tf-idf 索引 各种聚类方法 信息提取 信息提取的主要目标是从文档集中找出有意义的信息。IE 是 IR 的一种。信息提取能自动从一组非结构化文档或语料库中获取结构化信息。信息检索更侧重于人类可以阅读和书写的文本,并通过 NLP(自然语言处理)加以利用。但信息检索系统查找的是与用户的信息需求相关的、存储在计算机中的信息。它能从大量文本中返回文本文件(非结构化形式)。 在线文本提取中使用的信息提取系统应成本低廉。它需要具有开发的灵活性,并且必须易于转换到新的领域。让我们以机器的自然语言处理为例,即这里的 IE(信息提取)能够识别一个人所需要的 IR 系统。通过信息提取,我们希望让机器能够从文件中提取结构化信息。信息提取系统的重要性是由越来越多的非结构化信息(没有元数据的数据)决定的,比如互联网上的信息。通过转换为关系形式或使用 XML 标记,可以使这些知识更易于获取。 在信息提取过程中,我们总是尝试使用自动学习系统。这种 IE 系统可以减少信息提取中的错误。这也将减少对监督的要求,从而减少对领域的依赖。结构化信息的 IE 依赖于基本的内容管理原则:”内容必须在上下文中才有价值”。信息提取比信息检索困难。 信息检索与信息提取的区别 信息提取不是信息检索。传统的文本提取方法也会返回一组可能与查询相关的文档子集。结果返回基于搜索关键词。 信息提取的主要目标是从可能使用不同语言的文档中提取有意义的信息。在这里,有意义的信息包含事件、事实、组件或关系等信息类型。这些事实通常会自动存储到数据库中,然后可用于分析数据的趋势,提供自然语言摘要,或仅仅用于在线访问。更正式地说,信息提取是从文档中获取事实,而信息检索则是获取相关文档的集合。 对比表格如下: