现代信息检索——基本概念

简介: 现代信息检索——基本概念

1. 什么是信息检索


所谓信息检索,就是给定信息需求,然后从信息库中找出与需求最匹配的信息。详细地说,信息检索通常涉及信息的获取、存储、组织和访问。是一个从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。


从信息的数据形式上看,数据一般分为“非结构数据”和“结构化数据”两种。所谓非结构化数据,主要是自由文本,结构化数据有表单、数据库等等。


1.2. 信息检索与其他学科领域的关系


自然语言处理 (Natural Language Processing, NLP)

自然语言处理是一门对文本进行浅层、深层处理的学科(也称计算语言学)

数据挖掘 (Data Mining, DM)

数据挖掘是对结构化和非结构化信息进行分类、聚类、预测等分析处理的学科

机器学习 (Machine Learning, ML)

机器学习是从数据中学习到知识或规律的学科


1.3. 信息检索技术的应用


信息检索可以用在:搜索(Google、百度)、智能问答(Siri、微软小冰等)、推荐(京东、淘宝)、数据挖掘、情报处理、舆情分析、内容安全等等领域


1.4. 信息检索的分类


个人信息检索

主要是个人相关信息的组织、整理、搜索等。主要应用有桌面搜索(Desktop Search)、个人信息管理(Personal Information Management, PIM)、个人数字记忆(Personal Digital Memory)

企业级信息检索

主要是在企业内容文档的组织、管理、搜索等。企业级信息检索是内容管理(Content Management)的重要组成部分。包括局域网、内网搜索。

Web信息检索

在超大规模数据集上的检索


2. 信息检索的现实需求


信息检索系统在近些年发展起来的根本原因是:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易。


搜索引擎已经成了不可或缺的工具,Yahoo、Google、Baidu等。

互联网五大盈利模式:(1)计算广告,搜索广告、展示类广告、开屏广告、视频流广告;(2)商品售卖如京东、淘宝;(3)虚拟产品如网课、地图API;(4)平台佣金,如美团、滴滴;(5)增值服务,如网盘等各类会员;(6)金融服务等,或多或少都依赖信息检索技术的支撑;

目前搜索引擎公司甚至整个互联网正常运转的计算广告的核心技术是信息检索技术;

用户(国家、企业、个人等)需要信息检索技术:互联网的不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、淘宝等)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析(金融证券行业等)、各类政务系统、商务系统等都需要信息检索技术;


3. 信息检索的工具


信息检索工具:


SMART:向量空间模型的C工具;

Lemur、Indri:包含各种信息检索模型的C++实验平台,可以直接对TREC语料进行处理;

Terrier:格拉斯哥大学开发的信息检索Java实验平台,除基础IR模型外,还包含DFR模型;

PyTerrier, Terrier的Python版本,整合了近期提出的基于BERT的排序模型;

Anserini:标准语料实验工具,基于Python,强调“一键复现”。

深度学习工具


TensorFlow: Google发布的深度学习开源工具平台;

Theano:蒙特利尔大学开发的基于Python的深度学习工具;

Keras:由Google工程师François Chollet将TensorFlow / Theano作为Backend的集成工具,近期微软也开发了Keras的Backend工具CNTK;

Pytorch:Facebook发布的另一个基于Python的深度学习工具。


4. 重要检索工具平台


Lucene:一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎;

ElasticSearch:基于Lucene的搜索服务器,用Java开发,并作为Apache许可条款下的开放源码发布,是企业级搜索引擎;

Sphinx:C++检索工具,实现了BM25概率模型,和MySQL集成较好;

Xapian: C++检索工具,实现了BM25概率模型,易定制;

Nutch:开源爬虫+Lucene;

Larbin:C++采集工具;

Mahout:分布式数据挖掘平台 Java。


相关文章
|
机器学习/深度学习 存储 消息中间件
推荐系统基本概念和架构
阿里巴巴技术专家傲海为大家带来推荐系统基本概念和架构的介绍。内容包括什么是推荐系统和企业级推荐系统架构两部分。
推荐系统基本概念和架构
|
4月前
|
自然语言处理 索引
RAG入门:理解检索增强生成模型的基本原理
【10月更文挑战第21天】作为一名长期从事自然语言处理(NLP)研究的技术人员,我一直在关注各种新兴技术的发展趋势。其中,检索增强生成(Retrieval-Augmented Generation, RAG)模型引起了我的特别兴趣。RAG技术结合了检索系统和生成模型的优点,旨在解决传统生成模型在处理长文本理解和生成时所面临的挑战。本文将从个人的角度出发,介绍RAG的基本概念、工作原理及其相对于传统生成模型的优势,并探讨一些基本的实现方法。
166 1
|
6月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例
机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律,从而能够对未知数据做出预测或决策。
211 2
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
迁移学习的基本概念与应用
迁移学习是一种机器学习技术,旨在将从一个领域中学到的知识应用到另一个相关领域中,以解决目标任务的训练数据不足和模型训练时间过长的问题。它在计算机视觉、自然语言处理等领域中得到了广泛应用。
226 2
|
6月前
|
机器学习/深度学习 数据挖掘 Python
【数据挖掘】生成模型和判别模型的区别及优缺点
文章讨论了生成模型和判别模型在数据挖掘中的区别、原理、优缺点,并提供了一些常见的模型示例。
81 0
|
9月前
|
机器学习/深度学习 算法
机器学习(三)基本概念强化
机器学习(三)基本概念强化
82 0
|
机器学习/深度学习 人工智能 算法
机器学习术语解析与应用(一)
机器学习术语解析与应用(一)
|
机器学习/深度学习 自然语言处理 算法
机器学习术语解析与应用(二)
机器学习术语解析与应用(二)
|
存储 NoSQL C语言
基本概念和术语
基本概念和术语
|
存储 NoSQL C语言
一、基本概念和术语
一、基本概念和术语
一、基本概念和术语