https://github.com/sebarzi 著作《深入集群-大型数据中心资源调度与管理》 GopherChina2018讲师 2011加入淘宝至今,工作领域包括IaaS、PaaS资源调度、资源推荐、资源售卖、ToB用户增长等
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。这部分先通透FST的原理和构造方法,方便理解lucene FST、Builder两个核心对象,从而彻底看清基于图的lucene4索引、查询的发展脉络。至于读懂后有神马用,自个琢磨啊! 看懂估计要死伤不少脑细胞哦!
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。Lucene 5 有哪些点对大数据倒排索引和检索有优势 1.索引懒加载lazy加载,意味着按时间段或者其他分割的数据可以按需加载 2.FST词典结构以及基于图的索引、查询,使得内存消耗更低 3.异步合并,使得增量索引合并时的“索引整理”开销或者对查询影响更小 4.commitpoint 视图下reader自动更新,使得大规模数据的虚拟分组、全量切换更加方便。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。最早发布时间2013年的时候。以下内容非最新版本的性能表现。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。介绍地理搜索性能优化的一些经验。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。围绕从顶之下,从粗到西的关系认识solr 查询流程和实现细节。最低下定位到queryparse的实现。整个过程围绕信息检索这一思路展开,而不是工程实现来看这个问题。目的从整体结构上认识查询这一块的抽象。这样有具体需求的时候,可以知晓参照按个query、从哪个点注入系统中比较省事,而无需侵入solr、lucene底层。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总Solr Lucene cache相关内容。撇开系统结构、架构这些整体性的分析,纯粹从使用方面做梳理。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文介绍solr的地理搜索Demo。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文围绕分词作一些入门资源信息介绍,偏分词应用。内容10年前的,不代表最新的内容啊。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本篇回归基础,从概念介绍起。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总围绕Lucene、Solr的相关开源项目。不难发现,这是一个强大的生态。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总信息检索开放资源列表,有需要的拿走吧。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文分享大索引优化实践经验。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文是SolrCore原理分析的连载之一,介绍SolrCore的原理。理解了org.apache.solr.core.SolrCore也就理解了solr,SolrCore作为solr的一个最小完备管理单元,覆盖了查询、更新、cache、分布式等全部内容。在工程上的 plugin、安全性上的权限、线程安全上的计数、扩展上的加载。。。。如果相关依赖lucene实现自己的分布式,那么SolrCore不能不学习和借鉴。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文是SolrCore原理分析的连载之一,介绍分布式搜索实现原理。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文分析SearchComponent的内涵。
假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文分析Lucene reader计数与索引视图更新的异步线程化原理。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文梳理了互联网思维和做事方式,对于从传统行业加入互联网的人来说,下面的描述,是值得反复琢磨的。
假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文分享索引合并的经验。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文分析个人对搜索平台化、定制化的思考。
假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文介绍solr schema与查询注意事项。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文从个人理解出发,探探实时或者准实时搜索。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文Lucene4.2 update源码学习总结。
假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文介绍paoding 支持solr 4.2 高亮问题几处细节,期待可以帮助大家少踩坑。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文Solr Deep paging 4.7 and 3.*的相关原理解析。deep paging 是通过保留上一次翻页的 docid 和 score 信息,在收集文档过滤时候,执行比较并pass 已经收集过的文档,使得收集器的size 有限,性能得到提升。 存在问题是 shard搜索过程,searcher改变了,内部id变了,影响结果的局部一致性。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。文本介绍基于solr实现通用:输入提示、纠错、拼音搜索、繁体搜索方案。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文Solr实现排序定制化的实践参考。排序实现有N种形式,最低成本、最快响应时间是目标。 一份索引,支持N种排序策略并且在线互不干扰是要考虑的。每一种实现,处理的场景是不同的,不要千篇一律。020排序,从索引到效果,有不少坑,这篇文章没有细说,原因是有些内容不好公开。
假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是关于通用搜索的思考。
假期重新梳理了下之前在新浪博客的历史文档(新浪博客已下线),将一些内容重新搬到这里。 本文Lucene QueryParser的一个解析异常分析。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 zk的API 和 封装后的API,语义和原生的执行行为,要自己进去瞅瞅。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文是当时对搜索的理解吧,现在回头看,也是对继续从事搜索研发的同学有所帮助。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 非常意外,在一堆文章中发现了这篇,感觉10年前的文档,现在读来也是蛮有启发的。离职故事原文不在赘述(信息安全不变透露),把当时自己的思考记录下啊。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文Solr BooleanQuery 与PhraseQuery 用法比较。主要内容理解布尔查询、短语查询在分词后,AND OR 关系,帮助理解查询语义,和对结果的影响。顺便温习3种实现形式。
假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是关于Sole3.5 分布式GroupBy 源码分析。
假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是关于最大熵的读书笔记。
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文sole lucene的使用案例汇总。
假期重新梳理了下之前在新浪博客的历史文档(新浪博客已下线),将一些内容重新搬到这里。 本文梳理信息检索测试数据集。
假期重新把之前在新浪微博的内容(原新浪这个平台已经下线了)梳理了下,同步搬到这里。主要是Lucene、Solr 应用这块的内容。本文是分词的效果对比。
在上一篇《揭开云的面纱,从云的语言OpenAPI开始》从语言的视角对OpenAPI做了一个案例分析RunInstance。不难发现:RunInstances包含了 计算、存储、网络、安全等核心“部件”,符合“冯诺依曼结构”。对应单个服务器,由计算、存储、网络、安全融合为一个“硬件+软件“的台式机。在云原生环境下,云服务器变成了由分布式的计算池、存储池、网络池、安全服务等通过‘微服务’组装成云上的‘服务器‘,依然符合’冯诺伊曼‘架构’。那么这些微服务,提供计算、存储、网络等是如何‘粘合’一起,完整地支持OpenAPI的服务器请求处理的呢?下面进行分析。
深入集群 大型数据中心资源调度与管理,已经第2版了(2021-10月)。之前在ata和百晓生发布了新书自荐,这次同步到社区。
2021年是新世纪来,可能变化最剧烈的一年吧,我自己的体感是这样的。 作为一名在基础设施一线研发多年的码农,不自觉地问自己:这一年都发生了什么,自己做了什么,未来能做些什么?特别是未来的‘趋势’、未来的‘风口’。下面就是自己的一些‘务虚’思考。
从收到消息,说可以在阿里云开发者社区发文,提升个人的影响力,还可以顺便赚点小礼品。本质兴趣驱动,前来试水。结果连续发了几篇文章,每一次体验都非常的不好。例如 越是用心写的文章,约束审核严格,要人工协调(如前面几个技术资源汇总)。越是水货文章,越是立即审核通过(如本文)。特地吐槽下。这篇文章可能永久审核不通过,算是给审核的人一个提醒,也给自己一个留存,看看到底什么时候有改进。
前面博主汇总了主流云厂商的公开的技术资料,也对云的关键技术按分层做了梳理,其中虚拟化、调度、管控构成了三项基础、核心的服务和功能。所有这些技术最终通过云的语言:OpenAPI表达出来。把OpenAPI看作云的语言,意味着OpenAPI具备语言的基本特性,如指向性、描述性、逻辑性、交际性、传播性、名族性。同时,我们知道语言具备创造性、结构性,使用语言时候要求:具体、准确、简练。本文就尝试从语言的这些特性来分析、学习云的OpenAPI。
云的规模化效应的发挥离不开调度。随着云计算产品服务的成熟、普遍运用,调度的技术使用无处不在。 本文梳理了一些云厂商公开的调度相关的文章,从中可以帮助我们更好地认识、理解调度的产品、技术。
云计算技术如果做大块的抽象,我理解在云架构之外,就是虚拟化、调度、管控,三块的技术结合,支撑了 云的核心特征:弹性服务能力。 本文结合之前的学习,梳理了一些虚拟化这块的云厂商的文档。下一篇梳理调度相关的文档。 连续做架构、虚拟化、调度等云的关键内容梳理,目的是便于技术兴趣同学,快速地对比各家技术,快速地理解各家技术特点。 选择各云厂商的官方文档,是为了体现代表性,具有权威性,方便交流。
我们总是听到这样的词汇:云架构、基于云的架构、云原生架构。那么,到底这些名词在讲些什么。本文汇总了头部云厂商在官方文档的一些内容。通过这些内容,我们可以快速了解到,国内合国外的云厂商围绕云上的“架构”,各自的发力点,从中可以了解到差异,或者技术特色。
云计算技术如何关注,有哪些主流的信息可以查看,本文进行了初步梳理。
目前互联网企业在招人过程中,一般都要求进行笔试题考察。可能不同的面试官,出的题不一样,考察的侧重点也不大一样。 做为面试官,我时常提醒自己:要结构化评估、客观量化面试者答题成绩。 结合我自己的面试候选人的经历,我分享下我是怎么评估候选人Java笔试的内容。
互联网高速发展的20多年,一批批优秀的计算机相关的优秀人才,纷纷加入或者转行加这个新兴的“爆发”行业。 经历了一波波技术热潮,从事信息技术研发运用的同学,我们每个人都期望一直站在“风口”,持续地顺势“飞”起来。 然而,对我们来说,识别并抓住“风口”的机会,其实非常需要运气和个人的正确选择。 那么,接下来,有什么好的“风口”?本文尝试回答:云计算技术值得你投简历。
大规模集群资源调度和管理,对应的技术领域:分布式操作系统研发和运用。 提到操作系统,大家就会说这太底层了,其实和我的工作实际过程要求的技术技能有些Gaap。 对于广大的研发同学来说,大部分职责都是业务研发,内核这方面的业务需求一般都是基础软件团队的工作范围。 但是,对分布式操作系统有兴趣的同学,特别是云平台资源调度管理有兴趣同学,如果想通过应聘进入这个领域,那么有没有一些通用的面试题参考呢。本文就从多年工作、面试过程中,抽取相关内容,供有需要的同学进行学习、总结。下面从调度队列和优化、调度稳定性、分布式一致性、数据分析和算法、开源源码做一个初步的梳理。