李雨前_社区达人页

个人头像照片
李雨前
已加入开发者社区2003

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
开发者认证勋章
开发者认证勋章
个人头像照片
初入江湖
初入江湖

成就

已发布105篇文章
5条评论
已回答1个问题
0条评论
已发布0个视频
github地址

技术能力

兴趣领域
  • Java
  • Go
  • 资源调度
  • 架构师
  • 程序员
  • 索引
  • 数据处理
  • 双11
  • 云计算
擅长领域
技术认证

https://github.com/sebarzi 著作《深入集群-大型数据中心资源调度与管理》 GopherChina2018讲师 2011加入淘宝至今,工作领域包括IaaS、PaaS资源调度、资源推荐、资源售卖、ToB用户增长等

暂无精选文章
暂无更多信息

2022年05月

  • 05.02 18:03:01
    发表了文章 2022-05-02 18:03:01

    频繁 YGC的一段代码

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。
  • 05.02 18:01:56
    发表了文章 2022-05-02 18:01:56

    Lucene&solr 4 实践(4)

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本部分主要分析FST,快乐理解lucene fst包的源码细节和来龙去脉。
  • 05.02 18:01:07
    发表了文章 2022-05-02 18:01:07

    Lucene&solr 4 实践(5)

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。这部分先通透FST的原理和构造方法,方便理解lucene FST、Builder两个核心对象,从而彻底看清基于图的lucene4索引、查询的发展脉络。至于读懂后有神马用,自个琢磨啊! 看懂估计要死伤不少脑细胞哦!
  • 05.02 17:57:27
    发表了文章 2022-05-02 17:57:27

    Lucene&solr 4 实践(8)

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。Lucene 5 有哪些点对大数据倒排索引和检索有优势 1.索引懒加载lazy加载,意味着按时间段或者其他分割的数据可以按需加载 2.FST词典结构以及基于图的索引、查询,使得内存消耗更低 3.异步合并,使得增量索引合并时的“索引整理”开销或者对查询影响更小 4.commitpoint 视图下reader自动更新,使得大规模数据的虚拟分组、全量切换更加方便。
  • 05.02 17:55:36
    发表了文章 2022-05-02 17:55:36

    solr&lucene spatial search 大规模地理搜索性能堪忧

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。最早发布时间2013年的时候。以下内容非最新版本的性能表现。
  • 05.02 17:53:17
    发表了文章 2022-05-02 17:53:17

    Solr&lucene 默认的spatial search性能总结

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。介绍地理搜索性能优化的一些经验。
  • 05.02 17:48:17
    发表了文章 2022-05-02 17:48:17

    全面解剖 Solr query 到lucene query

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。围绕从顶之下,从粗到西的关系认识solr 查询流程和实现细节。最低下定位到queryparse的实现。整个过程围绕信息检索这一思路展开,而不是工程实现来看这个问题。目的从整体结构上认识查询这一块的抽象。这样有具体需求的时候,可以知晓参照按个query、从哪个点注入系统中比较省事,而无需侵入solr、lucene底层。
  • 05.02 17:40:01
    发表了文章 2022-05-02 17:40:01

    Solr&Lucene cache简要汇总

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总Solr Lucene cache相关内容。撇开系统结构、架构这些整体性的分析,纯粹从使用方面做梳理。
  • 05.02 17:35:46
    发表了文章 2022-05-02 17:35:46

    Solr4.1 spatial solrj search demo

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文介绍solr的地理搜索Demo。
  • 05.02 17:28:50
    发表了文章 2022-05-02 17:28:50

    关于分词

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文围绕分词作一些入门资源信息介绍,偏分词应用。内容10年前的,不代表最新的内容啊。
  • 05.02 17:25:11
    发表了文章 2022-05-02 17:25:11

    搜索lucene概念扫盲

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本篇回归基础,从概念介绍起。
  • 05.02 17:20:54
    发表了文章 2022-05-02 17:20:54

    LucneSolr序列开源

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总围绕Lucene、Solr的相关开源项目。不难发现,这是一个强大的生态。
  • 05.02 17:19:16
    发表了文章 2022-05-02 17:19:16

    lucene 相关性参考

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是lucene序列原理分享之一:相关性原理。
  • 05.02 17:17:47
    发表了文章 2022-05-02 17:17:47

    信息检索资源参考

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总信息检索开放资源列表,有需要的拿走吧。
  • 05.02 17:15:43
    发表了文章 2022-05-02 17:15:43

    SolrLucene超过300G索引优化参考

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文分享大索引优化实践经验。
  • 05.02 17:12:29
    发表了文章 2022-05-02 17:12:29

    关于SolrCore引发的总结--持续更新

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文是SolrCore原理分析的连载之一,介绍SolrCore的原理。理解了org.apache.solr.core.SolrCore也就理解了solr,SolrCore作为solr的一个最小完备管理单元,覆盖了查询、更新、cache、分布式等全部内容。在工程上的 plugin、安全性上的权限、线程安全上的计数、扩展上的加载。。。。如果相关依赖lucene实现自己的分布式,那么SolrCore不能不学习和借鉴。
  • 05.02 17:01:44
    发表了文章 2022-05-02 17:01:44

    关于SolrCore引发的总结---分布式搜索实现

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文是SolrCore原理分析的连载之一,介绍分布式搜索实现原理。
  • 05.02 16:59:21
    发表了文章 2022-05-02 16:59:21

    关于SolrCore引发的总结--SearchComponent话题

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文分析SearchComponent的内涵。
  • 05.02 16:49:09
    发表了文章 2022-05-02 16:49:09

    原理分析:Lucene reader计数与索引视图更新的异步线程化

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文分析Lucene reader计数与索引视图更新的异步线程化原理。
  • 05.02 16:47:02
    发表了文章 2022-05-02 16:47:02

    互联网思维和做事方式

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文梳理了互联网思维和做事方式,对于从传统行业加入互联网的人来说,下面的描述,是值得反复琢磨的。
  • 05.02 16:43:30
    发表了文章 2022-05-02 16:43:30

    索引合并那些事情

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文分享索引合并的经验。
  • 05.02 16:39:56
    发表了文章 2022-05-02 16:39:56

    搜索平台化与定制化

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文分析个人对搜索平台化、定制化的思考。
  • 05.02 16:36:28
    发表了文章 2022-05-02 16:36:28

    schema与查询11点注意事项

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文介绍solr schema与查询注意事项。
  • 05.02 16:31:11
    发表了文章 2022-05-02 16:31:11

    实时或者准实时的说法

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文从个人理解出发,探探实时或者准实时搜索。
  • 05.02 16:27:16
    发表了文章 2022-05-02 16:27:16

    Lucene4.2 update源码学习总结(1)

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文Lucene4.2 update源码学习总结。
  • 05.02 16:24:30
    发表了文章 2022-05-02 16:24:30

    paoding 支持solr 4.2 高亮问题几处细节备忘

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文介绍paoding 支持solr 4.2 高亮问题几处细节,期待可以帮助大家少踩坑。
  • 05.02 16:18:17
    发表了文章 2022-05-02 16:18:17

    Solr Deep paging 4.7 and 3.* 原理解析

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文Solr Deep paging 4.7 and 3.*的相关原理解析。deep paging 是通过保留上一次翻页的 docid 和 score 信息,在收集文档过滤时候,执行比较并pass 已经收集过的文档,使得收集器的size 有限,性能得到提升。 存在问题是 shard搜索过程,searcher改变了,内部id变了,影响结果的局部一致性。
  • 05.02 16:15:00
    发表了文章 2022-05-02 16:15:00

    基于solr实现通用:输入提示、纠错、拼音搜索、繁体搜索方案

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。文本介绍基于solr实现通用:输入提示、纠错、拼音搜索、繁体搜索方案。
  • 05.02 16:11:00
    发表了文章 2022-05-02 16:11:00

    Solrj 排序样例汇总

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文介绍Solrj排序Demo。
  • 05.02 16:09:09
    发表了文章 2022-05-02 16:09:09

    基于Solr实现排序定制化参考

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文Solr实现排序定制化的实践参考。排序实现有N种形式,最低成本、最快响应时间是目标。 一份索引,支持N种排序策略并且在线互不干扰是要考虑的。每一种实现,处理的场景是不同的,不要千篇一律。020排序,从索引到效果,有不少坑,这篇文章没有细说,原因是有些内容不好公开。
  • 05.02 16:04:40
    发表了文章 2022-05-02 16:04:40

    关于通用搜索软性的思考

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是关于通用搜索的思考。
  • 05.02 15:59:36
    发表了文章 2022-05-02 15:59:36

    Lucene QueryParser的一个"解析异常"

    假期重新梳理了下之前在新浪博客的历史文档(新浪博客已下线),将一些内容重新搬到这里。 本文Lucene QueryParser的一个解析异常分析。
  • 05.02 15:57:05
    发表了文章 2022-05-02 15:57:05

    Zookeeper API使用中一个case备忘

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 zk的API 和 封装后的API,语义和原生的执行行为,要自己进去瞅瞅。
  • 05.02 15:52:14
    发表了文章 2022-05-02 15:52:14

    乘着开放搜索的风头YY下

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文是当时对搜索的理解吧,现在回头看,也是对继续从事搜索研发的同学有所帮助。
  • 05.02 15:36:52
    发表了文章 2022-05-02 15:36:52

    一篇最美的离职故事

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 非常意外,在一堆文章中发现了这篇,感觉10年前的文档,现在读来也是蛮有启发的。离职故事原文不在赘述(信息安全不变透露),把当时自己的思考记录下啊。
  • 05.02 15:23:11
    发表了文章 2022-05-02 15:23:11

    Solr排序陷阱

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是关于Solr排序陷阱。
  • 05.02 15:18:30
    发表了文章 2022-05-02 15:18:30

    Solr BooleanQuery AND phraseQuery用法比较

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文Solr BooleanQuery 与PhraseQuery 用法比较。主要内容理解布尔查询、短语查询在分词后,AND OR 关系,帮助理解查询语义,和对结果的影响。顺便温习3种实现形式。
  • 05.02 15:10:07
    发表了文章 2022-05-02 15:10:07

    solr3.5 分布式groupby源码分析

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是关于Sole3.5 分布式GroupBy 源码分析。
  • 05.02 15:00:29
    发表了文章 2022-05-02 15:00:29

    Lucene solr 大规模应用实践一手经验

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文sole lucene的一些实践小经验。 之前是截图保存的,这里保留图片模式。
  • 05.02 14:49:40
    发表了文章 2022-05-02 14:49:40

    【转]最大熵模型:读书笔记

    假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是关于最大熵的读书笔记。
  • 05.02 14:30:55
    发表了文章 2022-05-02 14:30:55

    Solr-lucene 使用案例大全

    假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文sole lucene的使用案例汇总。
  • 05.02 14:13:30
    发表了文章 2022-05-02 14:13:30

    信息检索测试数据集

    假期重新梳理了下之前在新浪博客的历史文档(新浪博客已下线),将一些内容重新搬到这里。 本文梳理信息检索测试数据集。
  • 05.02 14:09:11
    发表了文章 2022-05-02 14:09:11

    EdgeNGramFilterFactory 与 NGramFilterFactory的实测效果

    假期重新把之前在新浪微博的内容(原新浪这个平台已经下线了)梳理了下,同步搬到这里。主要是Lucene、Solr 应用这块的内容。本文是分词的效果对比。

2022年01月

2021年12月

  • 12.27 10:22:20
    发表了文章 2021-12-27 10:22:20

    新书自荐《深入集群:大型数据中心资源调度与管理》

    深入集群 大型数据中心资源调度与管理,已经第2版了(2021-10月)。之前在ata和百晓生发布了新书自荐,这次同步到社区。
  • 12.22 19:09:54
    发表了文章 2021-12-22 19:09:54

    云端2021观察:“变化”

    2021年是新世纪来,可能变化最剧烈的一年吧,我自己的体感是这样的。 作为一名在基础设施一线研发多年的码农,不自觉地问自己:这一年都发生了什么,自己做了什么,未来能做些什么?特别是未来的‘趋势’、未来的‘风口’。下面就是自己的一些‘务虚’思考。

2021年09月

  • 09.12 00:28:07
    发表了文章 2021-09-12 00:28:07

    阿里云开发者社区 你确定你是在用心服务开发者吗?

    从收到消息,说可以在阿里云开发者社区发文,提升个人的影响力,还可以顺便赚点小礼品。本质兴趣驱动,前来试水。结果连续发了几篇文章,每一次体验都非常的不好。例如 越是用心写的文章,约束审核严格,要人工协调(如前面几个技术资源汇总)。越是水货文章,越是立即审核通过(如本文)。特地吐槽下。这篇文章可能永久审核不通过,算是给审核的人一个提醒,也给自己一个留存,看看到底什么时候有改进。
  • 09.11 23:44:05
    发表了文章 2021-09-11 23:44:05

    揭开云的面纱,从云的语言OpenAPI开始

    前面博主汇总了主流云厂商的公开的技术资料,也对云的关键技术按分层做了梳理,其中虚拟化、调度、管控构成了三项基础、核心的服务和功能。所有这些技术最终通过云的语言:OpenAPI表达出来。把OpenAPI看作云的语言,意味着OpenAPI具备语言的基本特性,如指向性、描述性、逻辑性、交际性、传播性、名族性。同时,我们知道语言具备创造性、结构性,使用语言时候要求:具体、准确、简练。本文就尝试从语言的这些特性来分析、学习云的OpenAPI。
  • 09.01 13:25:58
    发表了文章 2021-09-01 13:25:58

    云计算技术资料之调度

    云的规模化效应的发挥离不开调度。随着云计算产品服务的成熟、普遍运用,调度的技术使用无处不在。 本文梳理了一些云厂商公开的调度相关的文章,从中可以帮助我们更好地认识、理解调度的产品、技术。
  • 发表了文章 2023-06-13

    其他板块文章汇总

  • 发表了文章 2022-05-02

    搜索引擎岗位应聘必备题

  • 发表了文章 2022-05-02

    140字的奥秘【转】

  • 发表了文章 2022-05-02

    文初技术分享【转】

  • 发表了文章 2022-05-02

    无序数组压缩查询【转】

  • 发表了文章 2022-05-02

    Lucene/Solr 分布式与实时方案收集

  • 发表了文章 2022-05-02

    实时引擎平台化总结

  • 发表了文章 2022-05-02

    Lucene Luke源码分析

  • 发表了文章 2022-05-02

    Lucene/Solr Optimize相关总结

  • 发表了文章 2022-05-02

    Solr监控

  • 发表了文章 2022-05-02

    一种以ID特征为依据的数据分片(Sharding)策略[转]

  • 发表了文章 2022-05-02

    Solr\Lucene优劣势分析

  • 发表了文章 2022-05-02

    海量数据处理面试题[转]

  • 发表了文章 2022-05-02

    Thinking in java 摘录序列(1)【转】

  • 发表了文章 2022-05-02

    Thinking in java 摘录序列(2)【转】

  • 发表了文章 2022-05-02

    性能估算-汇总【转】

  • 发表了文章 2022-05-02

    【转】SolrQuery--EmbeddedServer执行流程回顾

  • 发表了文章 2022-05-02

    【转】SolrQuery性能压测参考

  • 发表了文章 2022-05-02

    Solr schema编写指导

  • 发表了文章 2022-05-02

    【转】关于搜索挖掘所想

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2022-01-23

    保存草稿内容怎么进入

  • 回答了问题 2014-05-10

    阿里云主机可以增加SSD,提高lucene全文检索的性能吗?

    Re阿里云主机可以增加SSD,提高lucene全文检索的性能吗? 考虑使用聚石塔吧。终搜可以帮助你完成基于lucene solr的个性化检索服务。
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息