Solr Deep paging 4.7 and 3.* 原理解析

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文Solr Deep paging 4.7 and 3.*的相关原理解析。deep paging 是通过保留上一次翻页的 docid 和 score 信息,在收集文档过滤时候,执行比较并pass 已经收集过的文档,使得收集器的size 有限,性能得到提升。 存在问题是 shard搜索过程,searcher改变了,内部id变了,影响结果的局部一致性。

4.7 深度翻页源码分析和应用参考

参数载体: CursorMark

核心执行流程:

SolrIndexSearcher.search()--->

SolrIndexSearcher.getDocListC()---->

SolrIndexSearcher.getDocListNC()里面会依赖参数,由cmd.getCursorMark()  里面取

getDocListNC里面

finalTopDocsCollector topCollector = buildTopDocsCollector(len, cmd);

     Collector collector = topCollector;

其中BuildTopDocsCollector里面调用

   returnTopFieldCollector.create(weightedSort, len, searchAfter,

                                     fillFields, needScores, needScores,true);

TopFieldCollector.create里面再调用

returnnewPagingFieldCollector(queue, after, numHits, fillFields, trackDocScores, trackMaxScore);

关于

TopFieldCollectorPagingFieldCollector

  publicPagingFieldCollector(

                               FieldValueHitQueue queue, FieldDoc after,intnumHits,booleanfillFields,

                              booleantrackDocScores,booleantrackMaxScore) {

支持多个field以及自定义排序sort实现。

收集的核心:判断是否重复分,然后判断内部id,决定是否收集。因为可能多个field排序,所以是循环先判断是否重复分。在3.*序列,没有循环判断,因为3.*只支持的是默认得分下的deep paging。另外传入的内部doc id是全局的,在setNextReader的时候,会计算偏移量的。

另外,做全量切换过程的deep paging可能会出现数据不一致,如果出现两次深度翻页请求,正好跨越新旧两个全量索引集合。

深度翻页是传入比较器,非深度翻页是分有序、无序的collect。参考TopFieldCollector create

注意:倒排链获取是有序的,这个是传入内部lucene id 的前提,然后用来处理得分相同的doc场景。这就引入另外一个问题,lucene id局部的、可变的。如果一个doc 刚刚被update了,起doc id 靠后了,然后得分可能没变,下一次深度翻页,可能需要最后才出现,而不是修改后可见级别调高。更潜在的一个问题:实时shard搜索。由于重启后重新消费commitlog,然后docid 编号递增靠后,使得deep paging 前后请求如果来自不同的solrCore,那么就可能出现,数据重复。隐藏域确保唯一性,可以控制不同shard搜索的排序不稳定。eg

fromsolrCore1------1---1-----------------thenupdateseconddocthenitsluceneinternaldocincr.maybyrestartsolrcore2orfirstupdatesolrCore2fromsolrCore2------1--------------------1----so, fromsolrCore2againfetchdocsecondpublicvoidcollect(intdoc)throwsIOException{//System.out.println("  collect doc="+doc);totalHits++;floatscore=Float.NaN;if(trackMaxScore){score=scorer.score();if(score>maxScore){maxScore=score;}}if(queueFull){//Fastmatch:returnifthishitisnobetterthan//theworsthitcurrentlyinthequeue:for(inti=0;;i++){finalintc=reverseMul[i]*comparators[i].compareBottom(doc);if(c<0){//Definitelynotcompetitive.return;}elseif(c>0){//Definitelycompetitive.break;}elseif(i==comparators.length-1){//Thisistheequalscase.if(doc+docBase>bottom.doc){//Definitelynotcompetitivereturn;}break;}}}//Checkifthishitwasalreadycollectedona//previouspage:booleansameValues=true;for(intcompIDX=0;compIDX<</span>comparators.length;compIDX++){finalFieldComparatorcomp=comparators[compIDX];finalintcmp=reverseMul[compIDX]*comp.compareTop(doc);if(cmp>0){//Alreadycollectedonapreviouspage//System.out.println("    skip: before");return;}elseif(cmp<0){//NotyetcollectedsameValues=false;//System.out.println("    keep: after; reverseMul="+reverseMul[compIDX]);break;}}//Tie-breakbydocID:if(sameValues&&doc<=afterDoc){//Alreadycollectedonapreviouspage//System.out.println("    skip: tie-break");return;}if(queueFull){//Thishitiscompetitive-replacebottomelementinqueue&adjustTopfor(inti=0;i<</span>comparators.length;i++){comparators[i].copy(bottom.slot, doc);}//Computescoreonlyifitiscompetitive.if(trackDocScores&&!trackMaxScore){score=scorer.score();}updateBottom(doc, score);for(inti=0;i<</span>comparators.length;i++){comparators[i].setBottom(bottom.slot);}}else{collectedHits++;//Startuptransient:queuehasn't gathered numHits yetfinalintslot=collectedHits-1;//System.out.println("    slot="+slot);//Copyhitintoqueuefor(inti=0;i<</span>comparators.length;i++){comparators[i].copy(slot, doc);}//Computescoreonlyifitiscompetitive.if(trackDocScores&&!trackMaxScore){score=scorer.score();}bottom=pq.add(newEntry(slot, docBase+doc, score));queueFull=collectedHits==numHits;if(queueFull){for(inti=0;i<</span>comparators.length;i++){comparators[i].setBottom(bottom.slot);}}}}

3.*深度翻页核心的Collect

4.7的是返回序列化后的CurseMark,而3.*的是直接的docsocre4.7solr对象,都是支持JavaBinCodec来序列化和反序列化的。

@Overridepublicvoidcollect(intdoc)throwsIOException{floatscore=scorer.score();//Thiscollectorcannothandlethesescores:assertscore!=Float.NEGATIVE_INFINITY;assert!Float.isNaN(score);totalHits++;if(score>after.score||(score==after.score&&doc<=afterDoc)){//hitwascollectedonapreviouspagereturn;}if(score<=pqTop.score){//Sincedocsarereturnedin-order(i.e.,increasingdocId), adocument//withequalscoretopqTop.scorecannotcompetesinceHitQueuefavors//documentswithlowerdocIds. Thereforerejectthosedocstoo.return;}collectedHits++;pqTop.doc=doc+docBase;pqTop.score=score;pqTop=pq.updateTop();}Theclassisdesignedtooptimalyserialize/deserializeanysupportedtypesinSolrresponse. Asweknowthereareonlyalimitedtypeofitemsthisclasscandoitwithveryminimalamountofpayloadandcode. Thereare15knowntypesandifthereisanobjectintheobjecttreewhichdoesnotfallintothesetypes, Itmustbeconvertedtooneofthese. ImplementanObjectResolverandpassitoverItisexpectedthatthisclassisusedonbothendofthepipes. TheclasshasonereadmethodandonewritemethodforeachofthedatatypesNote--Neverre-useaninstanceofthisclassformorethanonemarshalorunmarshalloperation. Alwayscreateanewinstance.publicclassJavaBinCodec{
目录
相关文章
|
12月前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
699 86
|
9月前
|
安全 算法 网络协议
解析:HTTPS通过SSL/TLS证书加密的原理与逻辑
HTTPS通过SSL/TLS证书加密,结合对称与非对称加密及数字证书验证实现安全通信。首先,服务器发送含公钥的数字证书,客户端验证其合法性后生成随机数并用公钥加密发送给服务器,双方据此生成相同的对称密钥。后续通信使用对称加密确保高效性和安全性。同时,数字证书验证服务器身份,防止中间人攻击;哈希算法和数字签名确保数据完整性,防止篡改。整个流程保障了身份认证、数据加密和完整性保护。
|
11月前
|
存储 缓存 算法
HashMap深度解析:从原理到实战
HashMap,作为Java集合框架中的一个核心组件,以其高效的键值对存储和检索机制,在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师,深入理解HashMap的原理、历史、业务场景以及实战应用,对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图,结合Java代码示例,全方位解析HashMap,帮助读者从理论到实践全面掌握这一关键技术。
352 14
|
8月前
|
机器学习/深度学习 数据可视化 PyTorch
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
614 7
深入解析图神经网络注意力机制:数学原理与可视化实现
|
9月前
|
机器学习/深度学习 算法 数据挖掘
解析静态代理IP改善游戏体验的原理
静态代理IP通过提高网络稳定性和降低延迟,优化游戏体验。具体表现在加快游戏网络速度、实时玩家数据分析、优化游戏设计、简化更新流程、维护网络稳定性、提高连接可靠性、支持地区特性及提升访问速度等方面,确保更流畅、高效的游戏体验。
233 22
解析静态代理IP改善游戏体验的原理
|
8月前
|
机器学习/深度学习 缓存 自然语言处理
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。
1081 6
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
|
9月前
|
编解码 缓存 Prometheus
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
本期内容为「ximagine」频道《显示器测试流程》的规范及标准,我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备,是我们目前制作内容数据的重要来源,我们深知所做的仍是比较表面的活儿,和工程师、科研人员相比有着不小的差距,测试并不复杂,但是相当繁琐,收集整理测试无不花费大量时间精力,内容不完善或者有错误的地方,希望大佬指出我们好改进!
627 16
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
|
8月前
|
传感器 人工智能 监控
反向寻车系统怎么做?基本原理与系统组成解析
本文通过反向寻车系统的核心组成部分与技术分析,阐述反向寻车系统的工作原理,适用于适用于商场停车场、医院停车场及火车站停车场等。如需获取智慧停车场反向寻车技术方案前往文章最下方获取,如有项目合作及技术交流欢迎私信作者。
615 2
|
10月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
12175 46
|
9月前
|
Java 数据库 开发者
详细介绍SpringBoot启动流程及配置类解析原理
通过对 Spring Boot 启动流程及配置类解析原理的深入分析,我们可以看到 Spring Boot 在启动时的灵活性和可扩展性。理解这些机制不仅有助于开发者更好地使用 Spring Boot 进行应用开发,还能够在面对问题时,迅速定位和解决问题。希望本文能为您在 Spring Boot 开发过程中提供有效的指导和帮助。
1162 12

推荐镜像

更多
  • DNS
  • 下一篇
    oss云网关配置