搜索引擎概述

简介: 对信息检索的评价——准确率和召回率。 相关文档:能够较好匹配用户搜索关键字的文档。 准确率,precision。检索出来的文档中,相关文档所占比例。 召回率,recall。全部相关文档中,被检索出来的文档的比例。 垂直搜索,vertical search。针对某一主题(行业、应用)的特殊搜索。 站内搜索:搜索被限定在一个给定网站内。 评价:用户与操作引擎交互的日志是很有价值

对信息检索的评价——准确率和召回率。

相关文档:能够较好匹配用户搜索关键字的文档。

准确率,precision。检索出来的文档中,相关文档所占比例。

召回率,recall。全部相关文档中,被检索出来的文档的比例。

垂直搜索,vertical search。针对某一主题(行业、应用)的特殊搜索。

站内搜索:搜索被限定在一个给定网站内。

评价:用户与操作引擎交互的日志是很有价值的信息源。


搜索引擎工作流

文本采集

网络爬虫:通过追踪网页上的超链接,找到并下载新的页面。

.doc 、excel、.pdf等二进制文件也有专门的函数可以读。

索引创建

分词:找出文档中的关键字,去除一些停用词。

停用词:无单独意义又经常出现的词,英文如: as 、for、 the、 this;中文如 的、是、这个、啊。

倒排索引inverted index。正排:文档->单词的集合;倒排:单词->文档的集合。posting(记录)中可包含文档编号、出现位置、出现频率等。

对不同的文档扫描得到不同的倒排索引,然后进行合并。

为了更好的合并,通常先字典排序,再进行二路归并。此时会有大量前缀相同的词排在一起。可采用公共前缀思想进行压缩

打分;对文档的质量、重要性进行打分。

索引检索

分词

检索。根据倒排索引取文档的交集

打分:按照一定的公式,索引创建阶段的文档分数与关键字分数共同影响最终得分

优先队列:搜索到的相关文档可能太多,用户一般只需要前若干个。故检索过程中根据打分分值维护一个规模为n的优先队列即可。

用户交互

用户输入与得到输出。

每条结果通常包括文档标题、简要描述、超链接 三部分。


目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
机器翻译中的分词
机器翻译中的分词
290 2
|
存储 安全 JavaScript
【分布式技术专题】「授权认证体系」深度解析OAuth2.0协议的原理和流程框架实现指南(授权流程和模式)
在传统的客户端-服务器身份验证模式中,客户端请求服务器上访问受限的资源(受保护的资源)时,需要使用资源所有者的凭据在服务器上进行身份验证。资源所有者为了给第三方应用提供受限资源的访问权限,需要与第三方共享它的凭据。这就导致一些问题和局限:
828 2
【分布式技术专题】「授权认证体系」深度解析OAuth2.0协议的原理和流程框架实现指南(授权流程和模式)
|
3月前
|
JSON 算法 安全
淘宝商品详情API接口系列,json数据返回
淘宝开放平台提供了多种API接口用于获取商品详情信息,主要通过 淘宝开放平台(Taobao Open Platform, TOP) 的 taobao.tbk.item.info.get(淘宝客商品详情)或 taobao.item.get(标准商品API)等接口实现。以下是关键信息及JSON返回示例:
|
1月前
|
供应链 安全 算法
区块链技术探索与应用:从密码学奇迹到产业变革引擎
🌟蒋星熠Jaxonic,技术宇宙中的星际旅人。以代码为舟,算法为帆,在区块链的浩瀚星河中探索去中心化的未来。从智能合约到DeFi,用极客精神谱写信任新篇章。
区块链技术探索与应用:从密码学奇迹到产业变革引擎
|
前端开发 JavaScript 安全
前端性能调优:HTTP/2与HTTPS在Web加速中的应用
【10月更文挑战第27天】本文介绍了HTTP/2和HTTPS在前端性能调优中的应用。通过多路复用、服务器推送和头部压缩等特性,HTTP/2显著提升了Web性能。同时,HTTPS确保了数据传输的安全性。文章提供了示例代码,展示了如何使用Node.js创建一个HTTP/2服务器。
341 3
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
什么是智能搜索
智能搜索融合了人工智能和大数据技术,提供高效的语义理解、多模态数据处理及个性化推荐。它不仅支持传统关键词匹配,还结合NLP、机器学习等先进技术,提升信息检索的精准度与多样性。适用于电商、内容平台、多媒体及企业内部知识库等多种场景,显著优化用户体验和业务效率。
1172 2
|
运维 监控 测试技术
如何确保微服务架构的高可用性?
如何确保微服务架构的高可用性?
451 57
|
8月前
|
机器学习/深度学习 算法 API
淘宝图片搜索商品列表API接口全攻略
淘宝图片搜索API(拍立淘)通过上传图片快速检索淘宝/天猫相似商品,支持标题、价格、销量等信息返回。核心功能包括以图搜图、商品筛选和分页查询,具备高效性、准确性和多语言支持。开发者需注册账号、创建应用并申请权限后调用接口,适用于电商平台、比价工具等场景。
线程池设置原则
线程池设置原则
315 5
|
测试技术 uml
UML 建模语言的基础概念与应用
【8月更文第23天】UML (Unified Modeling Language) 是一种用于系统架构设计的标准建模语言。
542 1